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Kapitel 1 

Einleitung 


“There are few persons, even among the calmest thinkers, who have not 
occasionally been startled into a vague yet thrilling half-credence in the 
supernatural, by coincidences of so seemingly marvellous a character that, 
as mere coincidences, the intellect has been unable to receive them. Such 
sentiments - for the half-credences of which I speak have never the full force 
of thought - such sentiments are seldom thoroughly stifled unless by refe- 
rence to the doctrine of chance, or, as it is technically termed, the Calculus 
of Probabilities. Now this Calculus is, in its essence, purely mathematical; 
and thus we have the anomaly of the most rigidly exact in Science applied 
to the shadow and spirituality of the most intangible in speculation.” 
Edgar Allan Poe, The Mystery of Marie Roget 


Betrachtet man die Sekundärliteratur zur mittelalterlichen indischen Alchemie, 
fallen zwei Schwachstellen bei der modernen Rezeption dieser Tradition ins Au¬ 
ge. Erstens wurden die Vorschriften zur Verarbeitung von Substanzen bisher 
nicht systematisch ausgewertet, obwohl sie den Hauptinhalt alchemistischer Tex¬ 
te bilden. Die zweite Schwachstelle ist die Datierung dieser Texte. Keiner der 
alchemistischen Texte, die in diesem Buch untersucht werden, kann mit histori¬ 
schen Nachrichten datiert werden. Die fehlende Datenabdeckung und die unsi¬ 
cheren Datierungen bilden die Ausgangspunkte der vorliegenden Arbeit, die ein 
mathematisch-statistisches Datierungsmodell beschreibt, das allein auf realien- 
kundlichen Angaben der alchemistischen Texte beruht. Bei diesem Verfahren 
werden für sich allein genommen unbedeutende Kriterien zu einem Gesamtbild 
zusammengefügt, das die Schulenbildung und die relative Chronologie der al¬ 
chemistischen Tradition beschreibt. 

Aus methodologischer Sicht sind die geringe Datenabdeckung und die un¬ 
sicheren Datierungen eng miteinander verknüpft. Mangels verlässlicher histori¬ 
scher Anhaltspunkte ist die Forschung auf inhaltliche Kriterien angewiesen, um 
alchemistische Texte zu datieren. Dabei werden aus inhaltlichen Ähnlichkeiten 
und Entwicklungen Rückschlüsse auf eine Datierung gezogen. Diese Datierungs- 
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methoden liefern bei „ahistorischen“ Traditionen wie der indischen Alchemie oft 
den einzigen Ansatzpunkt für die zeitliche Einordnung von Texten und haben 
sich deshalb als philologische Techniken bewährt. Nicht mehr zeitgemäß ist aller¬ 
dings die Art, wie diese Methoden auf Texte angewendet werden. Im Verlauf der 
letzten zwei Jahrhunderte haben sich in der Indologie große Mengen an Primär- 
(Quelltexte) und Sekundärdaten (Forschungsliteratur) angesammelt. Sowohl die 
Datenerfassung als auch die Argumentation verlaufen trotzdem noch nach ei¬ 
nem Grundmuster, das im 19. Jahrhundert für die wissenschaftlichen Philologien 
entworfen wurde. Dabei werden die Kriterien für eine Datierung manuell erfasst 
und in Textform unter Einsatz eines rudimentären Formalismus ausgewertet. 
Themengebiete mit einem kleinen Datenbestand lassen sich so bearbeiten. Bei 
großen Datenmengen liefert diese Herangehensweise dagegen unsichere Ergeb¬ 
nisse, weil der Forscher den Datenbestand nicht mehr vollständig überblicken 
kann. Da also weniger die Methodik als vielmehr ihre Anwendungsweise aktuali¬ 
siert werden muss, liegt es nahe, die bei einem kleinen Datenbestand bewährten 
philologischen Methoden mit mathematischen Modellen nachzubilden und ihre 
Anwendung so an einen Computer zu delegieren. Diese Vorgehensweise baut 
auf einem bekannten philologischen Modell auf, kann seine Beschränkungen 
aber problemlos umgehen. Das gilt für die Größe der Datenbasis, den Wegfall 
subjektiver Komponenten in der Argumentation und für die Nachvollziehbar¬ 
keit der Schlussfolgerungen. Hat man den Algorithmus, mit dem philologische 
Schlussfolgerungen gezogen werden, als richtig akzeptiert und die Daten korrekt 
eingegeben, liefert der im Idealfall deterministische Algorithmus immer dassel¬ 
be Ergebnis. Da er numerisch arbeitet, können außerdem die Schritte auf dem 
Weg zum Ergebnis in beliebiger Genauigkeit ausgegeben werden. Diskussions¬ 
bedarf besteht bei diesem Ansatz also weniger über Ergebnis oder Zwischen¬ 
schritte. Nur der Algorithmus und die Datenbasis müssen auf Korrektheit und 
Vollständigkeit geprüft werden. 

Dazu wurde ein mehrstufiges Modell entworfen (vgl. Abb. 1.1). Zuerst wer¬ 
den Sanskrit-Texte mit einem OCR-Programm digitalisiert. Die Texte werden 
anschließend morphologisch und lexikalisch analysiert und so auf eine effiziente 
Auswertung vorbereitet. Für die beiden ersten Schritte werden die Program¬ 
me SanskritOCR und SanskritTagger benutzt (vgl. [33] und [34]). Auf der 
nächsten Stufe werden alchemistische Vorschriften in den digitalisierten Texten 
markiert und mit einem Sprachmodell codiert, das semantische, syntaktische 
und einfache pragmatische Aspekte erfassen kann. Die hier gesammelten Daten 
bilden die Grundlage für die computerphilologische Untersuchung der indischen 
Alchemie. Vorschriften, die denselben Ablauf beschreiben (z.B. alle Vorschrif¬ 
ten über die Reinigung von Quecksilber), werden im nächsten Schritt mithil¬ 
fe von Alignment-Algorithmen aus der Bioinformatik verglichen. Durch dieses 
Verfahren können alchemistische Kernabläufe rekonstruiert und in Form von 
Strukturdiagrammen übersichtlich dargestellt werden. 

Die hier entwickelten Methoden ermöglichen nicht nur eine sehr viel höhe¬ 
re Datenabdeckung als herkömmliche philologische Techniken. Ihre Ergebnisse 
bieten gleichzeitig einen Lösungsansatz für das zweite Ausgangsproblem dieser 
Arbeit, die Datierung alchemistischer Texte. Die im Sprachmodell codierten Vor- 
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Schriften beschreiben den Inhalt wichtiger Abschnitte der alchemistischen Lite¬ 
ratur in komprimierter, einheitlicher und computerverständlicher Form. Schlüs¬ 
se, die aus diesen codierten Vorschriften gezogen werden, stützen sich auf eine 
große Datenbasis. Um aus dieser Datenbasis eine Datierung der Texte abzu¬ 
leiten, werden Gruppen inhaltlich zusammengehöriger Vorschriften mit einem 
modifizierten phylogenetischen Modell ausgewertet. Dieser Stufe der Datenana¬ 
lyse liegt das Axiom zugrunde, dass sich alchemistische Vorschriften im Lauf der 
Jahrhunderte mit einer annähernd konstanten Rate verändern. Diese Forderung 
wirkt auf den ersten Blick exotisch. Vergliche man aber z.B. ohne historisches 
Zusatzwissen und in einer standardisierten Sprachform europäische Vorschriften 
zur Verarbeitung von Quecksilber, die aus dem 15. bis 20. Jahrhundert stam¬ 
men, könnte man in diesen Vorschriften eine Entwicklung des Wissenstands 
erkennen, die sich unter anderem am Auftauchen und Verschwinden bestimm¬ 
ter Apparate und Zusatzreagenzien fest machen ließe. Solche Änderungen in der 
indischen Alchemie lassen sich aus dem Alignment von Gruppen inhaltlich ver¬ 
wandter Vorschriften ableiten. Die Änderungen werden in Form von Zeitregeln 
wie „Text 1 ist älter als Text 2“ ausgegeben und statistisch abgesichert. Aus ei¬ 
ner Sammlung statistisch signifikanter Zeitregeln, die um Datierungsvorschläge 
aus anderen Quellen erweitert ist, wird schließlich mit einem Optimierungsver¬ 
fahren eine Datierung für das alchemistische Corpus abgeleitet. 

Die Datierung mit bioinformatischen Verfahren ist aus meiner Sicht das in¬ 
teressanteste Ergebnis dieser Arbeit. Daneben habe ich Algorithmen für zwei 
weitere typisch philologische Argumentationsformen entworfen. Erstens wird 
das Corpus automatisch nach lexikalisch ähnlichen Textpassagen („Zitaten“) 
durchsucht. Aus diesen Ähnlichkeiten lässt sich eine Gruppierung alchemisti- 
scher Texte ableiten, die im Sinn von Schultraditionen interpretiert werden kann. 
Ähnliche Resultate lassen sich zweitens mit der automatisierten Untersuchung 
von Synonymlisten alchemistischer Reagenzien erzielen. 

Was erwartet Sie auf den nächsten Seiten? Die Gesamtuntersuchung der 
indischen Alchemie ist in zwei Teile gegliedert. Das vorliegende Buch ist der 
erste Teil und beschreibt die methodologischen Grundlagen, die mathematisch¬ 
statistischen Datierungsmethoden und die texthistorischen Schlussfolgerungen, 
die mit diesen Methoden aus realienkundlichen Angaben alchemistischer Texte 
gewonnen wurden. Der zweite Teil der Untersuchung beschreibt unter anderem 
die Datenbasis, auf der diese Schlussfolgerungen beruhen. Er wird gesondert als 
Wörterbuch der indischen Alchemie veröffentlicht. Kapitel 2 des vorliegenden 
Buches stellt drei moderne Datierungen des alchemistischen Corpus (s. Tabelle 
1.1) vor und skizziert ein theoretisches Gerüst, das verschiedene nicht-historische 
Datierungsmethoden in einen gemeinsamen konzeptuellen Rahmen bringt. In 
Kapitel 3 werden das Sprachmodell und seine Implementierung in C++ beschrie¬ 
ben. Kapitel 4 beschäftigt sich mit dem Alignment alchemistischer Prozeduren. 
Kapitel 5 diskutiert die Textgruppierung anhand von Synonym- und varga- 
Listen und führt gleichzeitig in die Grundlagen von Cluster- und Optimierungs¬ 
techniken ein. Kapitel 6 greift einige dieser Techniken zur Untersuchung von 
Zitaten auf. Die restlichen zwei Kapitel sind der Datierung des alchemistischen 
Corpus gewidmet. Während in Kapitel 7 Ableitung und statistische Absiche- 
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Abbildung 1.1: Stufen der Datenerfassung und -analyse bei der Datierung al- 
chemistischer Texte 


rung der Zeitregeln aus den Alignments beschrieben werden, wird in Kapitel 8 
die Datierung des gesamten Corpus mit einem Optimierungsverfahren berech¬ 
net. - Die Darstellung mathematischer Zusammenhänge ist zwangsläufig ein 
Kompromiss. Für Informatiker oder Mathematiker sind die detailliert erklärten 
Schritte trivial, während sie für andere Leser wahrscheinlich zu stark verkürzt 
dargestellt sind. Der Text richtet sich trotzdem eher an Philologen als an primär 
mathematisch ausgebildete Leser. 

In den Jahren 2006 und 2007 wurde ich von der Deutschen Forschungsge¬ 
meinschaft (DFG) durch Bewilligung einer „Eigenen Stelle“ gefördert. Ohne 
diese großzügige finanzielle Unterstützung, für die ich mich an dieser Stelle be¬ 
danken möchte, und die Übernahme der Publikationskosten wären weder diese 
Arbeit noch das Wörterbuch der indischen Alchemie entstanden. Mein Dank 
geht außerdem an Prof. Th. Oberlies, Göttingen, für die fruchtbringende Zu¬ 
sammenarbeit bei der Entwicklung des Sprachmodells, das in Abschnitt 3.1 be¬ 
schrieben ist und auch im Göttinger Ritualprojekt „Stein um Stein“ eingesetzt 
wird. 
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Text 

Abkürzung 

Edition 

Anandakanda 

AK 

[73] 

Kaiyadevanighantu 

KaiNigh 

[76] 

Bhävaprakäsa 

BhPr 

[7] 

MadanapAlanighantu 

MPAlNigh 

[46] 

Y OGARATNÄKARA 

YRä 

[4] 

Rasakämadhenu 

RKDh 

[49] 

Rasaprakäsasudhäkara 

RPSudh 

[84] 

RasamanjarI 

RManj 

[69] 

Rasaratnasamuccaya 

RRS 

[81] 

Rasaratnäkara 

RRA 

R.kh.: [56]; 
V.KH.: [55] 

RasasamketakalikA 

RSK 

[43] 

Rasahrdayatantra 

R.HT 

[27] 

Rasädhyäya 

RAdhy 

[71] 

Rasärnava 

RArn 

[62] 

Rasendracintämani 

RCint 

[19] 

Rasendracüdämani 

RCÜM 

[78] 

RasendrasArasamgraha 

RSS 

[26] 

Räjanighantu 

RäjNigh 

[52], [25] 

SärngadharasamhitA 

SdhSamh 

[72] 


Tabelle 1.1: Zusammensetzung des alchemistischen Corpus, Abkürzungen und 
Ausgaben der verwendeten Texte 
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Kapitel 2 

Philologische 

Datierungstechniken 


Texte, d.h. (in einer vortheoretischen (!) Definition; [16, 683]) von einem Autor 
verfasste, abgeschlossene schriftliche Produkte, werden in philologischen Diszi¬ 
plinen mit einem historischen oder einem inhaltsbasierten Ansatz datiert. Beim 
historischen Ansatz lässt sich der Text durch historische Nachrichten in ein sehr 
kleines Zeitintervall datieren. Die historische Evidenz kann aus unterschiedlich¬ 
sten Quellen stammen. Ein datiertes Autograph, die Beschreibung eines datier¬ 
baren Ereignisses im Text oder der Bericht eines Zeitgenossen, der die Fertig¬ 
stellung des Werkes erwähnt, können für eine Datierung herangezogen werden. 

Alchemistische Texte lassen sich grundsätzlich nicht mit historischen Nach¬ 
richten datieren. Zwar kann für einige Texte mithilfe datierter Manuskripte eine 
zeitliche Obergrenze fest gelegt werden. Die meisten (pseudo-) historischen Nach¬ 
richten, die in alchemistischen Werken auftreten, tragen aber nichts zu ihrer 
Datierung bei. Eines der vielen Beispiele dafür ist der Versuch, das RHT mit¬ 
hilfe des in RHT, 19, 78 erwähnten Königs Madana zu datieren. 1 White sieht 
Madana als einen nicht genauer bestimmbaren Kleinkönig an, der ein Reich an 
der Peripherie der Kalachuris regierte, und datiert den Text u.a. aufgrund dieser 
Vermutung auf das 10. bis 11. Jahrhundert ([82, 147/48]). Solche und ähnliche 
Datierungsversuche verfügen nur über eine sehr begrenzte Beweiskraft. Ein an¬ 
deres Beispiel für die Versuche, alchemistische Texte auf Basis schwer greifbarer 
historischer Phänomene zu datieren, ist das Opium-Argument. Eine Forschungs¬ 
fraktion, zu der u.a. Jolly gehört ([39, 30]), behauptet, dass das Narkotikum erst 

^^Der Text lautet: 

sitämsuvamsasambhavahaihayakulajanrriajanitagunamahimä / 

sa jayati srimadanasca kirätanätho rasäcäryah // 

„Im Candravamsa geboren, voll hervorragender Eigenschaften, die sich aus seiner 

Geburt in der Familie der Haihayas ergeben, 

siegt der ehrwürdige Madana, der König der Kirätas, der Alchemie-Experte. 

(78)“ 
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populär wurde, seitdem die Opiumpflanze im 16. Jahrhundert in Indien ange¬ 
baut wurde. Die (häufige) Erwähnung von Opium in einem Text deute darauf 
hin, dass er nach 1500 entstanden ist. Die andere Fraktion ist der Meinung, 
dass die Erwähnung von Opium mit einem sehr viel früheren Entstehungsda¬ 
tum vereinbar ist. So setzt White den RPSudh unter anderem deshalb ins 13. 
Jahrhundert, weil der Text Opium erwähne, das zuerst im Gadanigraha (um 
1200) beschrieben worden sei ([82, 159]). Noch geringer wird die Beweiskraft, 
wenn ein Text aufgrund der in ihm dargestellten gesellschaftlichen oder reli¬ 
giösen Situation datiert werden soll. Diese Herangehensweise leidet nicht nur 
unter der häufig sehr willkürlichen Identifizierung gesellschaftlicher oder reli¬ 
giöser Phänomene in einem Text. Auch unser Wissen über die soziologischen 
und religiösen Entwicklungen des mittelalterlichen Indiens, das den Bezugsrah¬ 
men für solche Datierungsversuche bildet, ist alles andere als gefestigt. So liefert 
Ray gleich zwei Datierungen für Nägärjuna, der den RRÄ verfasst haben soll 
(vgl. [83]). Beide Datierungen werden mit einer buddhistischen Ausrichtung des 
RRÄ begründet, setzen Nägärjuna aber einmal ins 2. und einmal ins 7./8. Jahr¬ 
hundert n. Chr. ([64, 116ff.]). Die Beweiskraft historischer Argumentationen ist 
im allgemeinen gegenläufig zur Komplexität des Phänomens, das zur Datierung 
herangezogen wird. Ein Grund dafür ist die oft fehlerhafte Chronologie solcher 
Phänomene, ein zweiter ihre inhaltliche Vielschichtigkeit. Soll ein Text anhand 
einer Einzelperson wie einem König datiert werden, sind Umfang und Erfolg die¬ 
ser Aufgabe recht leicht zu überschauen. Dagegen kann die richtige Einordnung 
desselben Textes in das vielschichtige und oft unsichere zeitliche Gerüst einer 
Religion eine Kunst für sich darstellen und ausufernde wissenschaftliche Kon¬ 
troversen hervorrufen. Ein Formalismus, der die inhaltlichen Voraussetzungen 
solcher kultur- und religionswissenschaftlichen Untersuchungen logisch struktu¬ 
riert, könnte dabei helfen, viele dieser Diskussionen frühzeitig zu beenden. Trotz 
vielversprechender Vorarbeiten (s. z.B. den erzähltheoretischen Ansatz in [15]) 
ist solch ein Formalismus meines Wissens noch nicht auf indologische Fragestel¬ 
lungen angewendet worden. 

Der historische wird durch einen inhaltsbasierten Ansatz ersetzt, sobald ein 
Text mithilfe historischer Nachrichten nicht oder nicht genau genug datiert wer¬ 
den kann. Merkmale in einem undatierten Text T? werden dabei mit Merkmalen 
verglichen, die sich in einem datierbaren Text Tp finden lassen. Drei Argumen¬ 
tationsmuster treten in philologischen Studien besonders häufig auf. Das erste 
Argumentationsmuster arbeitet mit Zitaten. Ein Zitat belegt zumindest bei gut 
edierten und von einem Autor verfassten Texten die Kenntnis von Tp durch 
den Verfasser von T?. Dementsprechend häufig werden Zitate zur Datierung 
alchemistischer Texte benutzt (s. z.B. Whites Chronologie des alchemistischen 
Corpus, Tab. 2.2). Das zweite Argumentationsmuster schließt von der Ähnlich¬ 
keit von Merkmalen auf die zeitliche Nähe von Texten (Ähnlichkeitshypothese): 
T? ähnelt Tp hinsichtlich Merkmal I. => T? und Tp stammen aus derselben 
Epoche. Das Merkmal X , mit dem die Ähnlichkeit begründet wird, kann dem ge¬ 
samten Bereich der Philologie und ihrer Hilfswissenschaften entstammen. Eines 
der unzähligen Beispiele ist die Datierung der RManj in die „iatro-chemische 
Periode“, da der Text dieselben Vorgänge beschreibe wie die restlichen Werke 
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dieser Epoche ([64, 164]). Das dritte Argumentationsmuster schließt von der Dif¬ 
ferenz in einem Merkmal auf eine zeitliche Differenz (Tr endhypothese): T? besitzt 
Merkmal X viel häufig er/seltener als To- => X? ist älter/jünger als To- Bei einer 
Trendhypothese wird die Häufigkeit eines Merkmals in zwei Texten verglichen. 
Aufgrund der Zu- oder Abnahme des Merkmals und vorgefasster Hypothesen 
über die zeitliche Entwicklung seiner Häufigkeit wird T? zeitlich vor oder nach 
T d eingeordnet. Wie weit T? von To entfernt ist, kann häufig nicht quantifi¬ 
ziert werden, wodurch sich relativ schwammige Datierungen ergeben. Das bei 
Trendhypothesen untersuchte Merkmal X entstammt denselben wissenschaftli¬ 
chen Bereichen wie bei Ähnlichkeitshypothesen. Häufig treten schwache Trend¬ 
hypothesen auf, die besagen, dass T? eine „archaische“ oder „entwickelte“ Form 
eines Themenbereichs beschreibe und daher in einen frühen oder späten Zeitab¬ 
schnitt zu setzen sei. Der Wissenschaftler bildet sich dabei aufgrund (hoffentlich) 
längerer Forschung ein mentales Bild des Themengebiets und der in ihm vor¬ 
herrschenden Trends, ordnet T? einem bestimmten Wert auf der mentalen Skala 
zu und datiert den Text anhand dieses Wertes. Der Erfolg solcher Datierun¬ 
gen ist stark von der Stimmigkeit dieser mentalen Skala abhängig. Überprüfbar 
im Sinn einer intersubjektiven Nachvollziehbarkeit sind solche Datierungen fast 
nie. Dieser - allgemein geisteswissenschaftliche - Mangel hegt vor allem dar¬ 
in begründet, dass die mentalen Skalen meist nicht explizit formuliert werden 
und manchmal vielleicht auch gar nicht formulierbar sind. Ahnlichkeits- und 
Trendhypothesen können als Spezialfälle eines allgemeineren Modells interpre¬ 
tiert werden, das von der Häufigkeit bestimmter Merkmale auf die Datierung 
schließt. Da sie in diesem Buch mit unterschiedlichen mathematischen Modellen 
formalisiert werden, habe ich sie als getrennte Klassen behandelt. 

Inhaltsbasierte Datierungsmethoden beruhen also auf wenigen, einfachen 
Voraussetzungen: 

• Eine linguistische oder inhaltliche Ähnlichkeit zwischen zwei Texten wird 
von ihrer zeitlichen Nähe verursacht. 

• Das Zitat, d.h. Ähnlichkeiten auf der Ebene von Phrasen und Sätzen, legt 
anhand der Datierung des zitierten Textes eine zeitliche Untergrenze für 
den zitierenden Text fest. Die Richtung der Textübernahme muss eindeutig 
erkennbar sein. 

• Ein Trend, d.h. die Zu- oder Abnahme eines Merkmals, wird von der 
zeitlichen Distanz zwischen Texten verursacht. 

• Der Text, der als Referenzpunkt oder Anker für Zitate, Ähnlichkeits- oder 
Trendhypothesen dient, kann hinreichend genau datiert werden. 

Diese weitgehend trivialen Voraussetzungen sind bei der Arbeit mit alchemi- 
stischer Literatur teilweise nicht erfüllt. Als erstes sind alchemistische Wer¬ 
ke in vielen Fällen keine Texte, die von einem Autor zu einem bestimmten 
Zeitpunkt verfasst wurden, sondern Kompilationen, die häufig durch schlech¬ 
te Editionen zusätzlich verfälscht werden. Bei der wissenschaftlichen Untersu¬ 
chung alchemistischer Texte treten daher ähnliche Probleme auf wie bei der 
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Aufarbeitung der Puränas (vgl. [66, 49ff.]) oder anderer anonymer Werke aus 
dem indischen Mittelalter (s.a. [24], 141 und 154ff.). Zweitens existieren keine 
hinreichend genau datierbaren Ankerpunkte. Am schwerwiegendsten wirkt sich 
allerdings ein dritter Problemkreis, der auf den vorhergehenden Seiten schon 
mehrmals gestreift wurde, auf die Anwendung inhaltsbasierter Datierungsme¬ 
thoden aus. Diese Methoden lassen sich mit herkömmlichen philologischen Ar¬ 
beitstechniken zuverlässig nur auf sehr kleine Datenbestände anwenden. Diese 
Beschränkung wird, grob gesagt, von der vergleichsweise geringen Speicherfähig¬ 
keit des menschlichen Gehirns verursacht. Einerseits muss man die per se be¬ 
weisschwachen Merkmale, die mit diesen Methoden verarbeitet werden, an vielen 
Textstellen erheben, um eine zuverlässige Datierung zu gewährleisten. Aus mei¬ 
ner Sicht genügt es z.B. nicht, sich damit zufriedenzugeben, dass Opium in einem 
Text erwähnt wurde (vgl. S. 11). Um ein derart schwaches Datierungskriterium 
zu stützen, müssten viele weitere Substanznamen vorgewiesen werden, die auf 
denselben Entstehungszeitraum wie das Opium hindeuten. Andererseits muss 
jede einzelne Beweiskette, die von einem Merkmal zu einer Datierung führt, 
mit einer großen Zahl argumentativer Zwischenschritte abgesichert werden, um 
ein zuverlässiges Teilergebnis zu gewährleisten. Der reguläre Wissenschaftler ist 
von den hier anfallenden Datenmengen schnell überfordert. Auswege bieten in 
dieser Situation allein schwergewichtige Monographien, die sich exakt mit mi¬ 
kroskopischen Ausschnitten eines Wissensgebiets beschäftigen und daher keine 
generalisierbaren Ergebnisse liefern, oder eine unscharfe Argumentationsweise. 

Ich unterbreche die methodologische Diskussion für einen Überblick über die 
bisherigen Versuche, die Texte der indischen Alchemie zu datieren. Besondere 
Aufmerksamkeit habe ich dabei dem Einsatz der eben skizzierten Datierungs¬ 
techniken gewidmet. 


2.1 Bisherige Datierungen der alchemistischen 
Tradition 

Dieses Kapitel stellt die drei wichtigsten Datierungsversuche für die alchemisti- 
sche Tradition vor. Die erste und grundlegende Darstellung hat P.C. Ray in den 
Jahren 1907 und 1909 publiziert ([63]). 2 D.G. White orientiert sich an Rays In¬ 
terpretation, arbeitet aber vor allem im religionswissenschaftlichen Bereich die 
Forschung der vergangenen hundert Jahre ein ([82]). G.J. Meulenbelds Datie¬ 
rungsansatz basiert auf gründlichster Auswertung der Literatur und sorgfältig 
abgewogenen eigenen Schlussfolgerungen ([47]). Alle drei Ansätze sind in Abb. 
2.1 grafisch zusammengefasst. Andere Darstellungen (z.B. [39], v.a. 3-5; [65, 167- 
171], [11, 309ff.]) wurden nicht berücksichtigt, da sie entweder auf zu wenigen 
Texten beruhen, von Ray abschreiben oder ihre Datierungen nicht ausreichend 
begründen. 


! Das Werk wird meist in der überarbeiteten Form von 1956 zitiert ([64]); vgl. [83, 78]. 
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2.1.1 Ray: „History of Chemistry in Ancient and Medieval 
India“ 

Obwohl Rays Ergebnisse inzwischen rund ein Jahrhundert alt sind, bilden sie 
immer noch die Grundlage vieler Darstellungen der indischen Alchemie (s. Tab. 
2.1). Das mag unter anderem an der griffigen Aufteilung der alchemistischen 
Literatur in eine „tantrische“ und eine „iatro-chemische“ Periode liegen. Zu¬ 
mindest beim späteren, stark äyurvedisch geprägten Abschnitt der Alchemie 
hat Ray mit dieser Zweiteilung wohl richtig gelegen. Das gilt auch für seine 
Darstellung des allgemeinen zeitlichen Ablaufs der Alchemie. Weniger überzeu¬ 
gend sind dagegen manche Details seiner Argumentation, sofern er sie dem Leser 
überhaupt mitteilt. Ray arbeitet hauptsächlich mit Zitaten und relativ schwa¬ 
chen religions- und kulturhistorischen Hypothesen. Die von Ray vorgeschlagene 
Zweiteilung der alchemistischen Literatur ist ein gutes Beispiel für eine Trendhy¬ 
pothese: Mit der Zunahme äyurvedischen Gedankenguts nehme die Bedeutung 
der Körperoptimierung in der Alchemie ab. Ray hat diese Hypothese wohl aus 
intensiver Lektüre der alchemistischen Literatur gewonnen, aber argumentativ 
nur schwach abgesichert. Insgesamt hinterlässt die „History of Chemistry“ den 
Eindruck, auf großen, meist aber nicht formulierten (formulierbaren?) Fach¬ 
kenntnissen zu beruhen. 

2.1.2 White: „The Alchemical Body“ 

Whites Darstellung der alchemistischen Textgeschichte (v.a. [82, 78-170]) ist ein 
typisches Beispiel für die Kombination philologischer Datierungsmethoden (s. 
Tab. 2.2). White versucht zuerst, einen historischen Rahmen für die indische 
Alchemie abzustecken. Dafür greift er auf Siddha-Listen und Hypothesen über 
die historische Entwicklung sivaitischer Sekten zurück ([82, 48ff.]). Den Beginn 
der erhaltenen schriftlichen Überlieferung setzt er ungefähr in das 10. Jahrhun¬ 
dert (z.B. [82, 55]). In Analogie zum puränischen pancalaksana definiert White 
ein inhaltliches Grundgerüst der indischen Alchemie, das aus zehn Merkmalen 
bestehe und in allen wichtigen alchemistischen Texten auftrete ([82, 144/45]). 
White erwähnt nicht, ob er Abweichungen von dieser idealen Zusammenstellung 
als Kriterium für die Datierung benutzt hat. Anhand der nachfolgenden Argu¬ 
mentation kann man aber vermuten, dass diese zehn Merkmale die Grundlage 
für die inhaltsbasierte Datierung alchemistischer Texte bilden. Die Gruppe be¬ 
steht aus folgenden Elementen, die gleichzeitig ungefähr die Abfolge der Themen 
in einem typischen alchemistischen Text skizzierten: (1) Aussagen über die gött¬ 
liche Natur von Quecksilber und Schwefel und über (2) die überlegene religiöse 
Kraft der Alchemie; (3) Ursprungsmythen für Quecksilber und andere Minerali¬ 
en; (4) ein Aphorismus über die Kräfte des Quecksilbers in verschiedenen Verar¬ 
beitungsstadien [ähnlich RHT, 1,3]; (5) religiöse Vorbereitung des Alchemisten; 
religiöse Hilfsprozeduren; (6) Beschreibung des Laboratoriums, der Geräte und 
der Reagenzien; (7) die 18 samskäras ; (8) die Vorbereitung des vedhas ; (9) die 
Anwendung des Quecksilbers auf den menschlichen Körper; (10) (späte Texte:) 
rogaväda , d.h. der medizinische Einsatz von Quecksilberprodukten. 
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Text 

Argumente für die Datierung 



„Tantrische Periode“ (700-1300) 


RRA (117/18) 

7./8. Jh. 

H: Autor: Nägärjuna; buddhistisch 

I: „interne Evidenz“ 

RArn (119) 

12. Jh. 

Z: >- RRA, -< RRS, -< RCint 

H: tantrisch 

RHT (122) 

11. Jh. 


RCÖM (122) 

12./13. Jh. 

Z: y RRA 

RPSudh (122) 

13. Jh. 

Z: >- RArn, >- RRA, >- RCÜM 

I: Metallurgie von Zink: -< RRS 


„Iatro-chemische Periode“ (1300-1550) 


RRS (158/59) 


RRA (159) 

H: Autor: Nityanätha 

Z: >- RArn 

RCint 

(159/60) 

I: Zitate: >- RArn, >- RRA, >- RHT 

I: Gemeinsamkeiten mit RSS (161) 

SdhSamh 

(160/61) 

um 1363 

H: Datierung der Paddhati, die der Autor selbst ver¬ 
fasst hat 

RSS (161) 

Z: >- RManj 

I: Gemeinsamkeiten mit RCint 

BhPr (162/63) 

16. Jh. 

H: Erwähnung von Syphilis 

Z: >- RCint, >- SdhSamh 

RManj (164) 



Tabelle 2.1: Datierung alchemistischer Texte nach P.C. Ray ([64]); H: histori¬ 
scher Ansatz, Z: Zitate, I: inhaltsbasierter Ansatz - Die Zahlen in Klammern 
sind Seitenangaben aus [64]. 
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Schon diese kurze Liste wirft ein Schlaglicht auf die Beweiskraft, die White 
einzelnen Gebieten der Alchemie zumisst. Die ersten fünf seiner zehn laksanas 
machen in einem durchschnittlichen alchemistischen Text wie dem RRS konser¬ 
vativ geschätzt weniger als fünf Prozent der Textmasse aus. 3 Trotzdem dienen 
sie White als wichtige Argumente bei der Datierung. Obwohl die indische Al¬ 
chemie zweifellos eine religiöse Komponente besitzt, gewinnt diese Komponente 
durch solche Argumentationsformen eine Bedeutung, die sich trotz gegenteiliger 
Behauptung vieler Forscher (z.B. [20, 289-292], [61], besonders hartnäckig [74]) 
in einem Großteil der Textmasse nicht erkennen lässt. Wie Ray argumentiert 
White daneben häufig mit Zitaten, greift aber auch einige Trendhypothesen auf 
und entwickelt sie weiter. Die wichtigste ist die schon von Ray benutzte zeitliche 
Abfolge von dehaväda , muktiväda/rogaväda und dhätuväda (s. Tab. 2.3). 

2.1.3 Meulenbeld, „A History of Indian Medical Litera- 
ture“ 

Meulenbelds Hauptaugenmerk liegt auf der Zusammenstellung der Sekundärli¬ 
teratur zur Alchemie. Eigene Datierungen schlägt er vor allem aufgrund der 
Handschriftenlage und auf Basis von Zitaten vor. Meulenbeld greift deutlich 
weniger als Ray und White auf religions- und kulturhistorische Thesen zurück, 
was zu Schlussfolgerungen führt, die erheblich besser nachvollziehbar sind (s. 
Tab. 2.4). 

2.1.4 Zusammenfassung der bisherigen Datierungsansätze 

Die Textgeschichte der indischen Alchemie kann sich nur auf sehr wenige si¬ 
cher datierbare Ankerpunkte verlassen. Im strengsten Sinn eignen sich allein 
datierte Manuskripte als verlässliche zeitliche Obergrenzen (s. Tab. 2.4). Lässt 
man auch in den Texten enthaltene (angeblich) historische Nachrichten und in¬ 
haltliche Merkmale als Datierungshinweise zu, erhält die Argumentation häufig 
einen recht subjektiven Charakter. Was ein Forscher klar aus einem Text her¬ 
auslesen kann, ist für den nächsten vollkommen inakzeptabel. Dieser Mangel 
an verlässlichen Datierungsmethoden schlägt sich in Datierungen wie derjeni¬ 
gen des RRS nieder. Während Meulenbeld den Text ins 15./16. Jahrhundert 
setzt, datiert ihn White ins 13. bis 15. Jahrhundert und Ray nur allgemein in 
die „iatro-chemische“ Periode. Diese Probleme sind nicht auf die Chronologie 
der Alchemie beschränkt, sondern treten in den meisten Klassen der Sanskrit- 
Literatur auf. Sie werden durch den Umstand verstärkt, dass selbst Texte, die 
nur unsicher datierbar sind, als Ankerpunkte für andere Datierungen benutzt 
werden. Fehler, die bei der Datierung eines dieser Anker gemacht werden, pflan¬ 
zen sich im Verlauf der Argumentation fort. 

Bei den inhaltsbasierten Datierungskriterien verlässt sich die Forschung vor 
allem auf Zitate, mit denen Zeit unter- und -obergrenzen festgelegt werden. Die 

3 Um der Genauigkeit die Ehre zu geben: Die Themen werden hauptsächlich in den Kapiteln 
1 und 6 des RRS behandelt. In [81] nehmen diese Kapitel 15 von 362 Seiten ein, was zu einem 
Anteil von rund 4% Prozent am Gesamttext führt. 
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Text 

Argumente für die Datierung 


AK (167ff.) 

? 

Z: >- RArn; >- RRA; >- RCüM; >- RRS 

I: Auffälligkeiten bei Mineralogie und Beschreibung der 
samskäras 

RHT (146ff.) 

10./11. Jh. 

H: König Madana aus Bhutan/Assam (s. S. 11); RHT, 

1, 3 deutet auf Mähesvarasiddhas. 

I: früh, da Stabilisierung des Körpers und dhätuväda 
betont; sechs mahärasas ; erste acht samskäras nur kur¬ 
sorisch behandelt 

RArn (148ff.) 

10./11. Jh. (?) 

I: inhaltliche und thematische Ähnlichkeit zur ViMALA- 
PRABHÄ (11. Jh.); keine systematische Behandlung der 
samskäras. Die ersten acht samskäras werden durch so- 
dhana und mardana ersetzt. Sechs Metalle; erster Ent¬ 
stehungsmythos für Schwefel 

Z: y RHT 

RPSudh 

(159ff.) 

13. Jh. 

H: erwähnt Somadeva (Autor des RCÜM) und Opium, 
das seit Beginn des 13. Jahrhunderts in indischen Texten 
beschrieben werde 

RRS (167) 

13./14. Jh. 

Z: >- RArn; RHT; >- RCÜM; >- RRA 

RRA (160ff.) 

12./13. Jh. 

Z: >- RCÜM; -C RRS; -< AK 

I: zwölf Metalle 

RSK (448) 

15. Jh. 

AFM 

RAdhy (130) 

13./14. Jh. 

AFM 

R.Cint (130) 

15. Jh. 

AFM 

RCÖM (15811.) 

12./13. Jh. 

H, Z: zitiert/erwähnt Autoren aus dem 10. bis 13. Jh.; 

>- RArn; wird in RRÄ und RPSudh erwähnt; -< RRS 

I: erster Entstehungsmythos für Quecksilber 


Tabelle 2.2: Datierung alchemistischer Texte nach White ([82, 144fF.]); H: hi¬ 
storischer Ansatz. Z: Zitate, I: inhaltsbasierter Ansatz, AFM: allgemeine For¬ 
schungsmeinung - Die Zahlen in Klammern sind Seitenangaben aus [82], 
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dehaväda , tantrische 
Alchemie 

muktivada 

dhatuvada 

Ziel 

körperliche Unsterb¬ 
lichkeit, jivanmukti 

Langlebigkeit —>■ Er¬ 
lösung durch Wissen 
(145); mediz. Präpa¬ 
rate, rogaväda 

Erlangen von 
siddhis (146) 

Quellen 

Kaula- Texte, 

Yämalas (145) 

rasäyana , Saiva Si- 
ddhänta (145/46) 

Kriyätantras , 

Zauberei 

(146) 

Texte 

RArn, RRA 

RHT, R.CÜM, RP¬ 
Sudh, RRS, ÄK 


Datierung 

ab 10. Jh.? (53) 

ab 14. Jh. (55) 

spät (55) 


Tabelle 2.3: Grundströmungen in der indischen Alchemie nach White ([82, 52ff.; 
145ff.]) - Die Zahlen in Klammern sind Seitenangaben aus [82]. 


Untersuchungen vermitteln teilweise nicht den Eindruck, dass wirklich sämtliche 
Zitate gefunden und ausgewertet wurden. Inhaltliche Merkmale werden oft nur 
an sehr kurzen Passagen untersucht und sind daher - auch wegen des kompi- 
latorischen Charakters vieler Texte und des häufig geringen Editionsstandards 
- vielleicht nicht für den gesamten Text repräsentativ. Dies trifft besonders auf 
die religionshistorischen und entwicklungsgeschichtlichen Argumentationen von 
Ray und White zu, deren Relevanz für den Gesamttext häufig nicht berück¬ 
sichtigt wird. Das kann, wie bei Ray, dazu führen, dass Texte auf Basis ihrer 
vergleichsweise leicht erkennbaren religiösen Zugehörigkeit datiert werden; oder 
dass, wie bei White, kurze Passagen wie der Ursprungsmythos des Quecksilbers 
als Anhaltspunkte für die Datierung eines ganzen Textes dienen. Auch Meu- 
lenbeld leitet gelegentlich die Datierung eines Textes aus sehr kurzen Passagen 
ab. So setzt er die in RPSudh, 8, 36 erwähnte Substanz dvipäntarotthä mit 
cobacini gleich, die erst im 16. Jh. von den Portugiesen nach Indien gebracht 
worden sei ([47, IIA, 650]). Außerdem werde in RPSudh, 3, 6-9 rasakarpüra be¬ 
schrieben, das in BhPr, 7, 3, 182-190 wie die cobacmi gegen Syphilis eingesetzt 
werde. Da der RPSudh zwar nicht die Syphilis, andererseits aber Medikamente 
gegen diese Krankheit beschreibe, sei er in zeitlicher Nähe zum BhPr, vielleicht 
aber etwas vor diesem Text entstanden. Obwohl Meulenbeld hier mit greifba¬ 
ren Fakten wie medizinischen Präparaten und Daten der Wirtschaftsgeschichte 
operiert, ruht die Datierung auf einer schwankenden Grundlage, dvipäntarotthä , 
die im BhPr dvipäntaravacä genannt werde, und cobacini werden aufgrund 
eines modernen Hindi-Kommentars gleichgesetzt; ihre Identität ist nicht ein¬ 
deutig gesichert. Auch das andere Argument, das für eine späte Datierung des 
RPSudh angeführt wird, ist nicht vollständig überzeugend. Herstellung und 
Anwendung von rasakarpüra werden z.B. auch in RSS, 1, 74-75 und RManj, 
2, 38-43 beschrieben. Meulenbeld setzt den RSS ins 15./16. Jh. ([47, IIA, 730]), 
die RManj spätestens ins 15. Jh., da sie im RSS zitiert werde ([47, IIA, 638]). 
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Text 

ältestes 

Ms. 

andere Datierungsmöglichkeiten 

AK (592) 

> 12./13. Jh. 


Z: >- R Arn, >- RCÜM 

BhPr (246) 

1550-1590 

1558/59 

H: Erwähnung der Syphilis 

Zitate, I: Einfüsse auf andere Texte 

MuA (622) 

> 16. Jh. 


Z: >- RSK 

RKDh (634) 

> 17. Jh. 


AFM: 16./17. Jh. ([47, IIB, 650]) 
Meulenbeld: kennt Ayurvedaprakäsa 

RPSudh (650) 

16. Jh. 


AFM: RCÜM -< RPSudh -< RRS => 13. 
Jh. 

Meulenbeld: H: erwähnt cobacim (im 16. 
Jh. von Portugiesen importiert) =>• 16. Jh. 

RManj (638) 

< 16. Jh. 

1546/47 

-< RSS (RSS erwähnt Sälinätha) 

RRS (670/71) 

15./16. Jh. 

1699 

Z: ^ RArn, ^ RHT, ^ RCÜM, ^ RRA 

RRA (664/65) 

1400-1450 

1473 

AFM: zwischen 3. und 15. Jh. 

Meulenbeld: Z: erste Hälfte des 15. Jh. 

RSK (688) 

(keine Datierung) 

RHT (621) 


AFM: 9.-11. Jh. 

Meulenbeld: Z: RCÜM, -< SDS 

RAdhy (616) 

1386/87 


RArn (684/85) 


AFM: 12.-14. Jh. 

Meulenbeld: Z: -< SDS =S> vor Mitte des 14. 
Jh. 

RAK (686/87) 


Meulenbeld: nicht datierbar, da Kompilati¬ 
on 

RCint (705) 

15./16. Jh. 


AFM: 12.-16. Jh. ([47. IIB, 704]) 
Meulenbeld: Z: >- RArn, ^ RHT, -< BhPr, 

-< RKDh; > RRÄ (erwähnt Nityanätha) => 
15./16. Jh. 

RCÜM (713) 

< 1375 


AFM: 12./13. Jh. 

Meulenbeld: Z: >- RHT (erwähnt Govinda), 

-< RRS —r* vor drittem Viertel des 14. Jh. 

RSS (730) 


AFM: 13.-16. Jh. ([47. IIB, 721]) 
Meulenbeld: 15./16. Jh. (?) 

SdhSamh 

(206/207) 

14. Jh. 


AFM: 11.-16. Jh. ([47, IIB, 233]) 
Meulenbeld: H: Kommentare: Z: Zitate bei 
anderen Autoren =>• 14. Jh. 


Tabelle 2.4: Datierung alchemistischer Texte nach Meulenbeld ([47, HA]); H: 
historischer Ansatz, Z: Zitate, I: inhaltsbasierter Ansatz, AFM: allgemeine For¬ 
schungsmeinung - Die Zahlen in Klammern sind Seitenangaben aus [47, IIA]. 
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Die Beschreibung von rasakarpüra , die den RPSudh in zeitliche Nähe zum Bh- 
Pr rückt, kann bei RSS und RManj eine deutlich frühere Datierung also nicht 
verhindern. 


2.2 Lösungsansätze 

Warum widersetzen sich alchemistische Texte einer chronologischen Einord¬ 
nung? Hauptsächlich fehlen verlässliche historische Daten, mit denen wenigstens 
einige der Texte sicher datiert werden könnten. Einzig ein globaler Zeitrahmen, 
der sich ungefähr von 900 bis 1600 n. Chr. erstreckt, schält sich aus den oft wider- 
streitenden Forschungsmeinungen heraus. Um die Textgeschichte der indischen 
Alchemie zu rekonstruieren, ist die Forschung weitgehend auf inhaltsbasierte 
Methoden angewiesen, die direkt ins Unterholz der Altphilologie führen. 

Akzeptiert man die einfachen theoretischen Grundlagen inhaltsbasierter Me¬ 
thoden (s. S. 13), stellen sie im Grunde ein angemessenes Mittel zur Datie¬ 
rung von Texten dar. Ihre erfolgreiche Anwendung scheitert aber am Umfang 
der alchemistischen Literatur, der der traditionellen Interpretation nur weni¬ 
ge Wahlmöglichkeiten offenlässt. Man kann sich wie Ray für mentale, kaum 
dokumentierte Trendmodelle entscheiden, mit denen Texte datiert werden. Sol¬ 
che Modelle können das richtige chronologische Bild einer Literaturtradition 
vermitteln, sind für den Rezipienten aber nicht rekonstruierbar. Der Forscher 
kann wie White auch nur relativ kleinteilige Aspekte der Alchemie für die Da¬ 
tierung heranziehen. Hier besteht die Gefahr, dass schon die Auswahl dieser 
Datierungsmerkmale den Datierungsprozess stark subjektiv beeinflusst, da die 
Merkmale die Entwicklung des Gebiets möglicherweise nicht korrekt erfassen. 
Beide Ansätze sind nicht zufriedenstellend. 

Inhaltsbasierte Datierungsmethoden lassen sich also nicht mit herkömmli¬ 
chen philologischen Arbeitstechniken auf die Alchemie anwenden. Deshalb sollte 
man allerdings nicht die Datierungsmethoden verwerfen, sondern zunächst neue 
Techniken für ihre Anwendung suchen. Wie eingangs beschrieben, bietet es sich 
angesichts der Datenmengen alchemistischer Texte an, ihre philologische Be¬ 
wertung in Teilen an einen Computer zu delegieren und so zu automatisieren. 
Obwohl solche computerphilologischen Ansätze bei weitem nicht zu den zen¬ 
tralen Forschungsgebieten der Informatik gehören, wurde im Lauf der letzten 
Jahrzehnte doch eine Reihe von Verfahren entwickelt, um die Ähnlichkeit von 
Texten automatisch zu bewerten. An Vorläufern solcher numerischen Methoden 
wurde in der Klassischen Philologie seit Ende des 19. Jahrhunderts gearbeitet 
(eine Übersicht in [14]). Mathematisch anspruchsvoller wurden diese Metho¬ 
den allerdings erst, seit Statistik und Informatik Werkzeuge zur Bewertung von 
Ähnlichkeiten zur Verfügung stellten. Seit der Arbeit von Mosteller und Wallace 
([50]) ist vor allem in neusprachlichen Philologien die Anwendung von Algorith¬ 
men zum Text vergleich, gelegentlich auch zur Datierung von Texten populär 
geworden. Die Ergebnisse vieler dieser Studien wirken oft aber etwas beliebig. 
Dieser Eindruck wird aus meiner Sicht von der Auswahl der Merkmale verur¬ 
sacht, aus denen diese Studien einen (zeitlichen) Unterschied zwischen Texten 
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Jh. Meulenbeld 


White 


Ray 


8 . 



(Nagarjuna) 




2 


-o 



'CZ) 



„ Iatrochemische 
Periode “ 
RCint 
RManj 
RRS 


RRA (Nityanatha) 
RSS 



Abbildung 2.1: Vergleich der Datierungen von Ray (s. Tab. 2.1), White (s. Tab. 
2.2) und Meulenbeld (s. Tab. 2.4); gestrichelte Linien geben die vom jeweiligen 
Forscher vorgetragene allgemeine Forschungsmeinung, durchgezogene die Mei¬ 
nung des Autors selbst an. 
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ableiten wollen. Die meisten Forscher verwenden hochfrequente Merkmale, die 
sich leicht aus digitalen Versionen eines Textes extrahieren lassen. Dazu gehören 
Buchstabenpaare ([44]), die Interpunktion und vor allem die häufigsten Wörter 
eines Textes. 4 Ich will nicht bestreiten, dass sich selbst aus exotischen Merkma¬ 
len wie Buchstabenpaaren Aussagen über die Ähnlichkeit und damit auch die 
Datierung von Texten ableiten lassen, da solche Merkmale phonetische Ände¬ 
rungen in der Sprache widerspiegeln können. Allerdings sind die meisten dieser 
Merkmale aus philologischer Sicht uninteressant oder sogar uninterpretierbar. 
Das mag erklären, warum indologische Studien wie [24] oder [80] in Fachkreisen 
weniger Resonanz fanden, als es ihrem innovativen Ansatz gebührt. Einer der 
wenigen indologischen Autoren, die statistische Methoden auf philologisch inter¬ 
essante Merkmale angewendet haben, war Gussner ([31], [30]). Meines Wissens 
wurde allerdings auch er nicht besonders stürmisch rezipiert. 

Was folgt daraus für die Datierungsalgorithmen, die für alchemistische Texte 
entwickelt werden sollen? Erstens müssen Merkmale benutzt werden, die einer¬ 
seits häufig belegt sind, andererseits aber immer noch philologisch interpretiert 
werden können. Hier bieten sich bestimmte Klassen alchemistischer Vorschriften 
an, die in allen Texten des Corpus beschrieben werden. Zweitens muss ein Weg 
gefunden werden, um diese Merkmale so zu formalisieren, dass sie mit einem 
Computer erfasst und ausgewertet werden können. Drittens müssen die inhalts¬ 
basierten Datierungsmodelle mathematisch formuliert und auf diese Merkmale 
angewendet werden. Daraus ergibt sich der folgende Arbeitsplan: 

1. Das alchemistische Corpus wird digitalisiert und morphologisch-lexikalisch 
analysiert. Einfache zweiwertige Aussagen, die z.B. Synonyme und die 
Zugehörigkeiten von Substanzen zu medizinischen Gruppen (vargas) be¬ 
schreiben, werden im digitalen Text markiert. 

2. Es wird ein Sprachmodell entwickelt, mit dem alchemistische Vorschriften 
erfasst und formalisiert werden können (Kap. 3). Dieses Modell ersetzt den 
Zettelkasten des Wissenschaftlers. Das Modell muss nicht nur in der Lage 
sein, den Inhalt der Vorschriften zu speichern, sondern sie auch wiederfin¬ 
den und vergleichen können. Vorlagen für solch ein Sprachmodell kommen 
vor allem aus der Computerlinguistik. 

3. Um den Inhalt alchemistischer Vorschriften zu vergleichen, werden Se¬ 
quenzvergleichsalgorithmen aus der Bioinformatik auf die codierten Vor¬ 
schriften angewendet (Kapitel 4). Mit diesen Algorithmen können außer¬ 
dem Synopsen mehrerer Vorschriften erstellt werden, die im noch zu pu¬ 
blizierenden Wörterbuch der indischen Alchemie eine zentrale Position 
einnehmen. 

4. Die so vorbereitete Datenbasis wird schließlich mit automatisierten Vari¬ 
anten der inhaltsbasierten Datierungsmethoden untersucht. Dieser Schritt 

4 Einen guten Überblick über die Entwicklung auf dem Gebiet der Autorenidentifizierung, 
bei der solche Merkmale verwendet werden, bieten die aktuellen Jahrgänge der Zeitschrift Li- 
terary and Linguistic Computing und hier v.a. [41] und [28]. Kritik aus Sicht einer traditionell 
arbeitenden Philologie hat v.a. Rudman geäußert ([68], [67]). 
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enthält den computerphilologischen Beitrag dieses Buchs. Von den zahl¬ 
reichen Unterarten dieser Datierungsmethoden wurden die drei folgenden 
formalisiert: 

(a) Ahnlichkeitshypothese : Hier wird untersucht, welche Lehrströmungen 
sich in der alchemistischen Tradition anhand der zahlreichen Syn¬ 
onymlisten und var^a-Definitionen erkennen lassen (Kap. 5). 

(b) Zitate : Kapitel 6 geht der Frage nach, wie man Zitate in einem Text- 
corpus automatisch finden und zur Strukturierung des Corpus ein- 
setzen kann. 

(c) Trendhypothese - Ähnlichkeit von Rezepten: Dieses in Kapitel 7 und 
8 beschriebene Verfahren macht sich „Abfallprodukte“ des Sequenz¬ 
vergleichs zunutze, um eine relative Chronologie des alchemistischen 
Corpus zu erstellen. 


Kapitel 3 


Sprachmodell und 
Ontologie 


Ein wichtiges Ziel dieser Untersuchung ist die Entwicklung neuer philologischer 
Strategien zur Erfassung und Auswertung komplexer Wissensgebiete. Die un¬ 
abdingbare Grundlage solcher Strategien ist eine computerverständliche Da¬ 
tenbasis. Aussagen eines Wissensgebiets werden dabei nicht mehr „von Hand“ 
untersucht, sondern mithilfe eines Sprachmodells in den Computer eingespeist 
und mit Methoden aus der Informatik weiterverarbeitet. Dieses Kapitel um¬ 
reißt das Sprachmodell, das zur Codierung alchemistischer Vorschriften benutzt 
wird (3.1), skizziert seine Implementierung in C++ (3.2) und beschreibt an einem 
Beispiel, wie alchemistische Vorschriften in diesem Modell codiert werden (3.3). 

Was sind die Anforderungen an ein Sprachmodell, mit dem Texte der mittel¬ 
alterlichen indischen Alchemie, aber auch andere klar strukturierte Handlungen 
wie z.B. Rituale erfasst werden können? Alchemistische Texte sind keine „schöne 
Literatur“. Den häufig anonymen Verfassern geht es meist nicht um einen beste¬ 
chenden sprachlichen Ausdruck, sondern um die Darstellung einer zeitlich klar 
gegliederten Handlung. Sieht man davon ab, dass die meisten alchemistischen 
Texte in Versform vorliegen, ähneln sie mit ihren knappen, stereotypen Formu¬ 
lierungen modernen Kochbüchern. Ein alchemistisches Rezept zählt die benötig¬ 
ten Apparate und Reagenzien auf und schildert, wann welcher Schritt zur Her¬ 
stellung des gewünschten Produkts ausgeführt werden muss. Das Sprachmodell, 
mit dem alchemistische Rezepte codiert werden, muss ihre zeitliche Gliederung 
wiedergeben und die dabei verwendeten Materialien und Geräte aufzeichnen 
können. Dagegen müssen weder grammatikalisch-morphologische Aspekte noch 
der schwierige Bereich der Pragmatik von diesem Sprachmodell vollständig be¬ 
handelt werden. Der grammatikalisch-morphologische und der lexikalische Be¬ 
reich werden vom Programm SanskritTagger abgedeckt ([33], [34]), mit dem 
alle alchemistischen Texte analysiert wurden. Über die Text-Datenbank die¬ 
ses Programms kann das Sprachmodell bei Bedarf auf die morphologische und 
lexikalische Analyse der untersuchten Texte zurückgreifen. Kompliziertere Auf- 
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linguistische Ebene 

Programmbereich 

morphologisch 

(nicht behandelt, —► SanskritTagger) 

lexikalisch 

(nicht behandelt, —► SanskritTagger) 

syntaktisch 

Syntaxmodell, Zeitmodell 

semantisch 

auf Wortebene: Ontologie 

pragmatisch, satz- 

(bis auf Referenzwiederholung und einfachste satz- 

semantisch 

semantische Aspekte nicht behandelt) 


Tabelle 3.1: Abdeckung linguistischer Felder durch das Sprachmodell 


gaben aus den Bereichen der (Satz-) Semantik und der Pragmatik sollten beim 
gegenwärtigen Stand der Forschung nicht an ein Computerprogramm übertra¬ 
gen werden. Dies betrifft vor allem den Bereich des kontextabhängigen Verste¬ 
hens. Das Programm muss nicht in der Lage sein, einen syntaktisch unanaly- 
sierten alchemistischen Quelltext eigenständig nachzuvollziehen, da an dieser 
Aufgabe oft auch ein menschlicher Experte scheitert (s. aber 3.2.2, „Eingabehil¬ 
fen“). Es muss außerdem keine fortgeschrittenen syntaktischen und satzseman¬ 
tischen Aspekte aufzeichnen können, da sie in alchemistischen Texten einfach 
keine Rolle spielen. Die einzige Ausnahme ist die Referenz Wiederholung, also 
die mehrfache Referenzierung eines einmal deßnierten Objekts, die aber durch 
Variablen (S. 27) modelliert werden kann. Das Sprachmodell soll alchemisti- 
sche Texte also nicht vollständig linguistisch beschreiben und erst recht nicht 
selbstständig verstehen. Es muss allein den zeitlichen Ablauf von Rezepten und 
die dabei benutzten Materiahen speichern können, wozu eine syntaktische und 
eine semantisch-inhaltliche Komponente benötigt werden. Diese Komponenten 
werden durch das zeitlineare Syntaxmodell (S. 27) und eine Ontologie (S. 27) 
implementiert. Tabelle 3.1 fasst in Anlehnung an [32, 39/40] die Abdeckung 
linguistischer Ebenen durch dieses Sprachmodell zusammen. 


3.1 Das Sprachmodell 

Das Sprachmodell besteht aus drei Hauptkomponenten: dem Syntaxmodell, der 
Ontologie und dem Zeitmodell. Kernstück des Syntaxmodells ist das Verb, das 
einerseits in einen übergeordneten Prozess eingegliedert ist, andererseits durch 
untergeordnete Objekte inhaltlich erweitert wird. Ein Prozess besteht aus meh¬ 
reren Verben, die zeitlich geordnet sind. Er ist seinerseits ein Teilablauf einer 
Prozedur, die die höchste hierarchische Ebene des Syntaxmodells darstellt und 
der gesamten Vorschrift (= Rezept) des Quelltexts entspricht. Objekte beschrei¬ 
ben, wie ihr Name nahelegt, Dinge oder Objekte und treten als Valenz, Modi¬ 
fikator oder Variable auf. Valenzen stellen wie in anderen Sprachmodellen (vgl. 
[2], besonders 33ff. und 133ff.) diejenigen nominalen Erweiterungen eines Verbs 
dar, die zur Bildung eines wohlgeformten Ausdrucks aus diesem Verb (Verbal¬ 
phrase) nötig sind. Das Programm operiert mit den Valenztypen „Subjekt“, 
„Objekt“, „Instrumental“ und „Dativ“. Durch einen Modifikator wird eine Ver- 
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Akk. 


— Blei 

- Schwefel 
Zinn 


Abbildung 3.1: Beispiel für eine Valenz mit Unterobjekten 


balphrase ähnlich wie durch ein Adverb inhaltlich erweitert. Hier stehen unter 
anderem räumliche und zeitliche Kategorien zur Verfügung. Objekte können 
durch die Modifikatoren „Genitivus possessivus“ und „Genitivus partitivus“ ge¬ 
nauer beschrieben werden. Alle Objekte können außerdem durch Unterobjekte 
desselben Typs erweitert werden, die mit den logischen Operatoren AND, OR oder 
XOR verknüpft sind. Mit dieser Erweiterung können z.B. komplexe Valenzen wie 
„(Blei und Schwefel) oder Zinn“ dargestellt werden (vgl. Abbildung 3.1). Eine 
Variable ist schließlich ein Objekt, das zu Beginn einer Prozedur oder eines Pro¬ 
zesses definiert wird und dann innerhalb dieser Prozedur oder dieses Prozesses 
mehrfach als Valenz oder Modifikator benutzt werden kann. Variablen wurden 
vor allem eingeführt, um das Problem der Referenzwiederholung zu lösen. Da¬ 
neben ermöglichen sie eine ökonomische Codierung, da Objekte, die aus vielen 
Unterobjekten und Modifikatoren zusammengesetzt sind, als Variablen definiert 
werden können und so nicht mehrmals eingegeben werden müssen. Das Verhält¬ 
nis der syntaktischen Elemente ist in Abbildung 3.2 zusammengefasst. 

Die grundlegende Zeitstruktur einer Prozedur wird durch die Reihenfolge 
der Verben festgelegt, die in ihr enthalten sind. Um den zeitlichen Ablauf einer 
Handlung genauer zu beschreiben, steht ein Zeitmodell zur Verfügung, das auf 
der obersten syntaktischen Ebene, d.h. der Prozedur, definiert werden kann. Der 
Aufbau dieses Modells ist der hierarchischen Struktur des Syntaxmodells ange¬ 
passt. Während auf der Ebene der Prozedur die allgemeinen Einstellungen des 
Zeitmodells wie Gesamtdauer oder Modelltyp festgelegt werden, wird unterge¬ 
ordneten syntaktischen Elementen eine begrenzte Zeitdauer oder ein Zeitpunkt 
innerhalb des ausgewählten Modells zugeordnet (s. Abb. 3.3). Das Zeitmodell 
verändert nicht die lineare Anordnung der syntaktischen Elemente, sondern de¬ 
finiert allein ihre Dauer. 

Syntax- und Zeitmodell beschreiben den Zusammenhang einer Handlung 
und die zeitliche und logische Gruppierung der an ihr beteiligten Entitäten. Sie 
sagen aber noch nichts über den Inhalt der beschriebenen Handlung aus. Am 
naheliegendsten wäre es, den Inhalt jedes syntaktischen Objekts per Hand in 
dieses Objekt zu schreiben. Dieser Ansatz ist aber nicht nur fehleranfällig und 
aufwendig, sondern erschwert auch die inhaltliche Aufarbeitung der erfassten 
Prozeduren. Sehr viel effizienter ist es, alle für die Beschreibung des untersuch¬ 
ten Wissensgebiets nötigen Konzepte einmal zentral zu definieren und dann nur 
noch Referenzen auf diese Konzepte in die syntaktischen Abläufe einzufügen. 
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Abbildung 3.2: Verhältnis der wichtigsten Elemente im Syntaxmodell 


Syntaxmodell 


Prozedur 


Zeitmodell 


Modelldefinition 

• Typ (z.B. „n Tage“) 

• Gesamtdauer (z.B. „5 Tage“) 


Verbi 

i 

Verb2 - 

i 

Verbs - 


zugeordnete Zeit 


■ 1- Tag 

■ 2. Tag 


Abbildung 3.3: Zusammenhang von Syntax- und Zeitmodell 
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Dafür wird eine bereichsspezifische Ontologie benötigt, die Nomina, Adjektive 
und Verben umfasst. Adverbien wurden nicht in die Ontologie aufgenommen, 
da sie durch Modifikatoren simuliert werden können. Jeder der drei Bereiche der 
Ontologie ist in Anlehnung an das Konzept semantischer Netze hierarchisch auf¬ 
gebaut ([60]). Dabei befinden sich die allgemeinsten Konzepte an der „Wurzel“ 1 , 
die spezialisiertesten dagegen „weit unten“ im Hierarchie-Baum (vgl. Abb. 3.4). 
Für den Aufbau einer bereichsspezifischen Ontologie lassen sich keine generellen 
Regeln fest legen. Allerdings können die obersten Ebenen der Hierarchie häufig 
aus schon bestehenden Ontologien (in diesem Fall aus Opencyc, [1]) übernom¬ 
men werden. Die zentrale Aufgabe beim Aufbau einer leistungsfähigen hierar¬ 
chischen Ontologie liegt in der Modellierung der bereichsspezifischen, hier alche- 
mistischen Unterbereiche, deren Struktur sich direkt auf die mit dem Sprachmo- 
dell gewonnenen philologischen Ergebnisse auswirkt. Diese Detailmodellierung 
beeinflusst vor allem die Berechnung von Konzeptähnlichkeiten, die u.a. beim 
Alignment benötigt werden (vgl. Kap. 4). Einem Menschen ist z.B. klar, dass 
Zinn und Blei silbergraue Metalle, Oleander und Jasmin dagegen Pflanzen mit 
weißen Blüten sind. In den meisten Sprechsituationen werden deshalb Blei und 
Zinn für sehr viel ähnlicher gehalten als z.B. Blei und Oleander. Ahnlichkeits- 
aussagen werden hier aufgrund von Wissen über Eigenschaften („Farbe“) und 
Klassenzugehörigkeiten („Metall“, „Pflanze“) der erwähnten Begriffe getroffen. 
Ein informatisches Konzept, das auf solchen Beschreibungen beruht, sind die so¬ 
genannten Frames ([48]). Jeder der hierarchisch angeordneten Frames stellt eine 
Objektklasse dar, deren Eigenschaften durch Slots beschrieben werden. Ein Slot 
ist eine benannte Eigenschafts-Variable, deren Wertebereich meist begrenzt ist. 
Für einen Slot „Farbe“ stellen die Werte „rot“ und „grün“, nicht aber „warm“ 
oder „saftig“ vernünftige Auswahlmöglichkeiten dar. Slots werden an unterge¬ 
ordnete Frames vererbt. So erbt der Frame „Kind“ den Slot „Haarfarbe“ des 
übergeordneten Frames „Mensch“. Ähnlichkeiten können in framebasierten On¬ 
tologien z.B. durch Auszählen übereinstimmender Slots berechnet werden (s. 
Abb. 3.5, links). 

In der hierarchischen Ontologie, die im hier beschriebenen Sprachmodell 
zum Einsatz kommt, wird die Ähnlichkeit von Objekten dagegen durch die Ent¬ 
fernung der ihnen zugeordneten Konzepte im Ontologie-Baum definiert. Als 
Entfernung wird die Anzahl der Knoten bezeichnet, die durchlaufen werden 
müssen, um auf dem kürzesten Weg vom ersten zum zweiten Konzept zu gelan¬ 
gen. Um von „Blei“ zu „Zinn“ zu gelangen, muss der Pfad („Blei“) —► „Metall“ 
—> „Zinn“ der Länge 2 durchlaufen werden (s. Abb. 3.4). Für den Übergang 
„Blei“ —> „Oleander“ sind dagegen die sieben Schritte „Metall“ —> „anorgani¬ 
sche Substanz“ „Pflanze“ —► „Oleander“ nötig (s. Abb. 3.5, rechts). 

Die Speicherung von Konzepten in hierarchischen Bäumen ermöglicht es also, 
die Konzept ähnlichkeiten auf einfache Art zu berechnen, während in unstruk¬ 
turierten Wissenssammlungen wie z.B. Listen eine dynamische Ähnlichkeitsbe¬ 
rechnung kaum möglich ist. Allerdings sind hierarchische Ontologien anfällig für 


1 Als Wurzel wird der Ausgangspunkt eines Baums bezeichnet, der sich, wie bei der Dar¬ 
stellung der Ontologie, durchaus auch „oben“ befinden kann. 
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Entität 


Objekt Agens 

Tier Mensch 

Alchemist 

Oleander Jasmin Metall Schwefel 
Blei Zinn 


natürliches 
Objekt 

Pflanze 


Substanz 

anorganische 

Substanz 


Abbildung 3.4: Ausschnitt aus einer möglichen alchemistischen Ontologie 



framebasierte Ontologie 

hierarchische Ontologie 


Farbe 

Metall 

Pflanze 

Blei Jasmin Oleander Zinn 

Blei 

silbergrau 

ja 

nein 

7 7 2 

Jasmin 

weiß 

nein 

ja 

2 7 

Oleander 

weiß 

nein 

ja 

7 

Zinn 

silbergrau 

ja 

nein 



Abbildung 3.5: Ähnlichkeitsberechnung durch Frames (links) und mithilfe einer 
hierarchischen Ontologie (rechts) 


Fehler in der Wissensmodellierung. Weil die Ähnlichkeit als Entfernung zweier 
Konzepte im Ontologie-Baum definiert ist, bringen falsch gebaute Bäume falsche 
Ähnlichkeitsmaße hervor. Wird der „Oleander“ nicht als „Pflanze“, sondern als 
„anorganische Substanz“ klassifiziert, ist er auf einmal dem „Blei“ sehr viel ähn¬ 
licher als dem „Jasmin“. Diese Schwierigkeiten werden durch den fremdartigen 
Inhalt alchemistischer Texte noch vergrößert. So kann man z.B. nicht ohne wei¬ 
teres davon ausgehen, dass alchemistischen Autoren die Klasse der „Metalle“ in 
der uns heute geläufigen Form bekannt war. Dem Aufbau der Ontologie muss al¬ 
so eine gründliche Untersuchung der Terminologie des jeweiligen Wissensgebiets 
vorangehen. 

Da eine konsistente framebasierte Ontologie noch mühsamer aufzubauen ist 
als eine rein hierarchische Ontologie, habe ich zur Wissensrepräsentation eine 
Mischung beider Konzepte gewählt. Grundstruktur der Ontologie ist ein seman¬ 
tisches Netz. Seine Klassen können durch vererbbare nominale und adjektivische 
Slots, denen ein fester Wertebereich aus der Ontologie zugeordnet ist, erweitert 
werden. Die Slots werden nicht zur Beschreibung der Klassen benutzt und spei¬ 
chern daher auch kein vorgegebenes Wissen in Form von Standardwerten. Sie 
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definiert 

syntaktische 

Syntaxmodell I— FunktIon ^ Objektinstanz 


beschreibt 
Bedeutung 
des Objekts 


Ontologie 


Abbildung 3.6: Rolle von Syntaxmodell und Ontologie bei der Instanziierung 
eines Objekts 



Abbildung 3.7: Codierung des Kompositums kuttitakaraviradalarasa mithilfe der 
Ontologie 


dienen allein zur Spezifizierung einer Klasseninstanz, d.h. eines Objekts einer 
Klasse, das in einer Prozedur enthalten ist. Die Instanziierung eines Objekts in 
einer Prozedur ist damit die Schnittstelle zwischen Syntaxmodell und Wissens¬ 
repräsentation. Während das Syntaxmodell für die zeitliche und logische Glie¬ 
derung eines Vorgangs verantwortlich ist, definiert die Ontologie die beteiligten 
Elemente (s. Abb. 3.6). Abbildung 3.7 beschreibt die Codierung des Kompo¬ 
situms kuttitakaraviradalarasa („Saft aus zerstoßenen Oleanderblättern“). Die 
Klasse „Pflanzenteil“, zu der u.a. „Blatt“ und „Wurzel“ gehören, besitzt Slots, 
die nicht mit vorgegebenen Werten besetzt sind. Erst bei der Beschreibung des 
Oleanderblatts werden die passenden Slots gefüllt. Eine ausgewählte Eigenschaft 
spezifiziert damit ein konkretes Objekt, wirkt sich aber nicht auf die Ontologie 


aus. 
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3.2 Software 

In diesem Abschnitt werden die Grundstrukturen der Software SanskritProcess 
beschrieben, in der das Sprachmodell aus 3.1 implementiert ist. Abschnitt 3.2.2 
beschreibt Hilfsfunktionen für die schnellere Datenerfassung und damit Ansätze 
eines automatischen Textverständnisses. 

3.2.1 Implementierung des Sprachmodells in C++ 

Die C++-Klassen des Syntaxmodells sind von einer Basisklasse SEMBasis 2 abge¬ 
leitet (s. Abb. 3.8). Diese Basisklasse speichert 

• den Namen und die Beschreibung eines Elements. 

• das ontologische Konzept, das dem Element zugeordnet ist. 

• die Verknüpfung des Elements mit dem Quelltext aus der SanskritTagger- 
Datenbank. 

• Informationen über die Darstellung des Elements in der Benutzerober¬ 
fläche. 

• die Angabe, ob ein Element virtuell 3 ist. - Mit dieser Variablen werden 
Elemente markiert, die im Quelltext nicht erscheinen, sondern vom Be¬ 
arbeiter z.B. nach Vorlage ähnlicher Texte oder nach einem Kommentar 
selbstständig ergänzt wurden (vgl. S. 39). 

• zusätzliche Informationen, die beim Alignment (Kap. 4) benötigt werden. 

Um die Vorteile von C++ auszunutzen, besitzt die Grundklasse SEMBasis eine 
Vielzahl (rein) virtueller Funktionen, mit denen sich z.B. der Objekttyp und die 
Position eines Elements in der Syntaxhierarchie abfragen, Unterobjekte zusam¬ 
menstellen oder Beschreibungen eines Objekts ausdrucken lassen. Eine Reihe 
von Funktionen dient außerdem dazu, die Ähnlichkeit des aktuellen Elements 
mit anderen syntaktischen Elementen auf Grundlage der Distanz in der Onto¬ 
logie (s. S. 29) zu berechnen. 

Auf der zweiten Ebene der C++-Klassenhierarchie folgen die Klassen SEM- 
SubProcedure (= Prozedur), SEMProcess (= Prozess), SEMVerb (= Verb) und 
SEMObject (= generelles Objekt). SEMSubProcedure und SEMProcess sind vor 
allem für die zeitlineare syntaktische Gliederung einer Handlung zuständig und 
verwalten deshalb Listen der ihnen untergeordneten Elemente (SEMProcess: Li¬ 
ste von Verben; SEMSubProcedure: Liste von Prozessen). 

Die Klasse SEMVerb ist das Äquivalent des Verbs aus dem Syntaxmodell. Ne¬ 
ben einer Liste von Valenzen, deren Besetzung in der Verbalontologie festgelegt 

2 Die Vorsilbe SEM- vor allen syntaktischen Elementen stammt aus der Frühphase der Pro¬ 
grammentwicklung und müsste eigentlich SYN- heißen. Dem Compiler und auch mir ist der 
Name allerdings egal! 

3 Die Variable virtuell hat nichts mit den virtuellen Punktionen der Basisklasse zu tun! 
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SEMBasis 
nicht instanziierbar 


\ 



semModifiable 
(mit Modif. erweiter¬ 
bares Element) 
nicht instanziierbar 


/ 


SEMSubProcedure 

(Prozedur) 


SEMProcess 

(Prozess) 


SEMVerb SEMObject (gen. 
(Verb) Objekt, Variable) 


\ 



SEMValence 

(Valenz) 


SEMModifier 
(Modifikator) 


Abbildung 3.8: Vereinfachte C++-Klassenhierarchie der syntaktischen Elemente 

wird, und einer Liste von Modifikatoren besitzt ein Verb zwei Variablen 4 , mit de¬ 
nen der Handlungsablauf genauer beschrieben wird. Der Syntaxtyp beschreibt 
den Zusammenhang zwischen vorhergehendem ( v p ) und aktuellem Verb (u c ). Ne¬ 
ben dem Standardwert konsekutiv ( v p —* v c ) stehen die Werte gleichzeitig 
und kausal ( v p ist die Ursache für v c ) zur Verfügung. Einfache satzsemantische 
Tatsachen lassen sich mit der Variablen Modalität ausdrücken, deren Standard¬ 
wert Aussage eine nicht verneinte Aussage bezeichnet, die aber auch die Werte 
verneinte Aussage („X macht nicht ... “), Anweisung („X muss ... “), Verbot 
(„X darf nicht ... “) und Erlaubnis („X darf ... “) annehmen kann. 

Ein Objekt aus dem Syntaxmodell wird durch die Klasse SEMObject oder 
eine ihrer Unterklassen implementiert. Sobald einem Objekt ein Quelleintrag Q 
aus der Ontologie zugewiesen ist, kann das Objekt durch die zu Q gehörigen Slots 
(S. 29) genauer beschrieben werden. Dabei wird zwischen einem Slot-Template, 
der Vorlage für einen Slot in der Ontologie, und der Slot-Implementierung, dem 
aktuellen Wert dieses Slots bei einem Objekt, unterschieden. Wie oben beschrie¬ 
ben, sind diese beiden Bereiche strikt getrennt, da der Inhalt der Ontologie bei 
einer Instanziierung unverändert bleibt. Viele Objekte sind zählbar (s.u.). Ne¬ 
ben der einfachen Anzahl („5 Töpfe“) stehen die Optionen Anteil („1 Teil Blei, 
3 Teile Schwefel“) und Gewicht zur Verfügung. Die letzte Option wird durch 
eine Maßeinheit erweitert, so dass z.B. Ausdrücke wie „N.N. erhitzt 15 gadyänas 
Quecksilber“ in folgender Form codiert werden können: 


'Verb erhitzen 
Sub. [N.N.] 


[Quecksilber] 

Gewichttyp 

Anzahl 


Gewicht 

15 


Gewichtseinheit gadyana 


SEMProcess, SEMVerb und SEMObject sind zusätzlich von semModif iable ab¬ 
geleitet (vgl. Abb. 3.8). Alle Objekte dieser Klasse können durch eine Liste von 

4 „Variable“ bezieht sich hier auf die Erweiterung eines C++-Objekts! 
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Modifikatoren der Klasse SEMModif ier spezifiziert werden, die den Modifikato¬ 
ren des Syntaxmodells entsprechen (s. S. 26). Da die Funktion von Modifikato¬ 
ren bewusst vage gehalten wurde, kann das Material eines Objekts z.B. durch 
einen entsprechenden Modifikator bestehend aus oder durch einen Slot aus 
der Ontologie beschrieben werden. Die Codierungsweise sollte innerhalb einer 
SanskritProcess-Datenbank aber konsistent bleiben. 

Die Datenbank („knowledge base “ —► kb-), in der die Ontologie verwaltet 
wird, ist in die drei Bereiche „Nomina“, „Adjektive“ und „Verben“ aufgeteilt, 
die in C++ durch die Klassen kbNoun, kbAdjective und kbVerb repräsentiert 
werden. Alle drei Klassen der Ontologie sind ähnlich wie die syntaktischen Klas¬ 
sen von einer Basisklasse kbBasis abgeleitet, die wieder für die Verwaltung der 
Grundinformationen und die grafische Ausgabe der Elemente zuständig ist. Die 
hierarchische Gliederung jedes Ontologie-Bereichs wurde durch einfache, in ihren 
Asten alphabetisch geordnete Tries nachgebildet. Da jeder Bereich der Ontolo¬ 
gie weniger als 1000 Einträge umfasst, müssen diese Tries weder hinsichtlich der 
Einfüge- noch der Suchgeschwindigkeit optimiert werden. Die Klasse kbNoun 
verwaltet zusätzlich die Slot-Templates. Jede dieser Vorlagen zeigt auf zwei Ele¬ 
mente aus der Ontologie. Das erste dieser Elemente bestimmt den nach außen 
sichtbaren Namen des Slots, das zweite den Wertebereich, mit dem der Slot 
gefüllt werden kann. So besitzt die Nominalklasse „Gefäß“ einen Slot „Materi¬ 
al“ (= nach außen sichtbarer Name), der mit den Werten der Ontologieklasse 
„Tonsorten“ (= Wertebereich) gefüllt werden kann. Daneben besitzen Nomina 
aus der Ontologie die Variable metrisch, die angibt, ob ein Objekt dieser Klasse 
zählbar ist. 

Die Klasse kbVerb speichert die möglichen Valenzstellen eines Verbs und 
beschreibt so seine syntaktische Grundstruktur. Elemente der Verbalontologie 
können als abstrakt markiert werden. Diese Verben gliedern die Verbalonto¬ 
logie in logische Untereinheiten, werden selbst aber nicht über ein SEMVerb in¬ 
st anziiert. Ein Beispiel ist die Klasse „[mit einer Flüssigkeit behandeln]“, die als 
Unterklassen die instanziierbaren Verben „waschen“, „eintauchen“ usw. besitzt. 
Zusätzlich können Verben zu „Freunden“ gemacht werden. Diese Option wird 
beim Sequenz-Alignment genauer beschrieben (s. S. 46). 

3.2.2 Automatische semantisch-syntaktische Analyse von 
Originaltext 

Wichtig für eine schnelle und einheitliche Codierung sind Eingabehilfen, die 
dem Benutzer z.B. durch möglichst gute Vorschläge für einen Ontologie-Eintrag 
einen Teil seiner Arbeit abnehmen. SanskritProcess bietet solche Eingabehil¬ 
fen beim Zuweisen von Ontologie-Einträgen und für die Analyse ganzer Verbal¬ 
phrasen. Alle Formen von Eingabehilfen beruhen auf der Idee, dass das Pro¬ 
gramm die Zuordnung zwischen Elementen eines morphologisch und lexikalisch 
analysierten Textes aus der SanskritTagger-Datenbank und den instanziierten 
Elementen des Syntaxmodells speichert, aus diesen Zuordnungen Regeln ablei¬ 
tet und schließlich anhand dieser Regeln passende syntaktische oder ontologische 
Elemente vorschlägt. 
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Der einfachste Fall sind Vorschläge für Ontologie-Einträge. Da jedem von 
SEMBasis abgeleiteten syntaktischen Element ein Wort aus dem Quelltext zuge¬ 
wiesen werden kann (vgl. S. 32), liegt dem Programm eine Liste von Quellwort- 
Ontologie-Paaren vor. Wird einem syntaktischen Element ein Quellwort zuge¬ 
wiesen, bevor es mit einem Eintrag aus der Ontologie verknüpft ist, kann das 
Programm aus den gespeicherten Quellwort-Ontologie-Paaren anhand des zu¬ 
gewiesenen Quellworts einen passenden Ontologie-Eintrag auswählen. Proble¬ 
me ergeben sich allein, wenn ein Quellwort mit mehreren Ontologie-Einträgen 
verknüpft ist. In diesem Fall gibt das Programm die Treffer nach absteigender 
Häufigkeit geordnet aus. Eine ausgeklügeltere Prozedur könnte den sprachlichen 
und syntaktischen Kontext berücksichtigen. Da ein Sanskrit-Wort aber selten 
mehr als drei Ontologie-Einträgen zugeordnet ist, ist die nach Häufigkeit ge¬ 
ordnete Ausgabe eine vertretbare Vereinfachung. Passende Füllwörter für Slots 
werden auf ähnliche Weise zugewiesen. 

Deutlich aufwendiger ist die automatische Umwandlung von Sanskrit-Quell¬ 
text in vollständige Verbalphrasen. Diese Umwandlung lässt sich als syntakti¬ 
sches Parsing betrachten, in dessen Verlauf morphologisch-lexikalisch annotierte 
Sanskrit-Wörter aus der SanskritTagger-Datenbank auf eine instanziierte syn¬ 
taktische Struktur in der SanskritProcess-Datenbank abgebildet werden. Die 
korrekte syntaktische Analyse natürlichsprachiger Sätze ist immer noch eines 
der schwierigsten Probleme in der Computerlinguistik (zu Lösungsansätzen s. 
z.B. die Übersicht in [17, 232ff.]). Da diese Funktion als Hilfsfunktion gedacht 
ist und damit keinen vollwertigen syntaktischen Parser ersetzen soll, wurde für 
die Umwandlung Quelltext —* Verbalphrase ein einfaches wahrscheinlichkeits¬ 
basiertes Modell benutzt. 

Ausgangspunkt des Parsings ist eine vom Benutzer im Quelltext markier¬ 
te Gruppe von Sanskrit-Wörtern. Das Programm sucht aus den markierten 
Wörtern das Sanskrit-Verb heraus, das bisher am häufigsten mit einem Verb 
aus der Ontologie verknüpft wurde, und macht es zum Ankerpunkt der syntak¬ 
tischen Analyse. Nomina und Adjektive, die sich unter den übrigen markierten 
Wörtern befinden, sind die Kandidaten für die syntaktischen Elemente, die dem 
Verb untergeordnet sind. Sie müssen so auf die freien Valenz- und Modifikatoren¬ 
stellen des Anker-Verbs und auf mögliche Slot-Positionen seiner Erweiterungen 
verteilt werden, dass folgende Bedingungen erfüllt sind: 

1. Die Wahrscheinlichkeit der resultierenden Auflösung ist möglichst hoch. 
- Jedes Verb in der Programm-Ontologie besitzt eine Liste von Syntax- 
Regeln, in der verzeichnet ist, welche seiner Valenzen bzw. Modifikatoren 
bisher durch welche Sanskrit-Wörter realisiert wurden. Diese Liste, die 
bei jedem Programmstart neu erstellt wird, speichert den Valenz- bzw. 
Modifikatortyp, den zugeordneten Ontologie-Eintrag und die verknüpften 
Sanskrit-Begriffe und ihre Kasus. Die Liste verzeichnet daneben häufige 
Slots und ihre Äquivalente im Sanskrit-Quelltext. Das Anker-Verb kann 
mithilfe dieser Liste überprüfen, ob und mit welcher Wahrscheinlichkeit 
ein Sanskrit-Wort in einem bestimmten Kasus als Valenz bzw. Modifikator 
oder als Slot für eine Valenz- bzw. Modifikatorenstelle infrage kommt. 
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2. Jedes Wort aus dem Quelltext darf nur einem syntaktischen Element zu¬ 
geordnet werden. - Diese Bedingung reduziert die numerische Komple¬ 
xität der Analyse erheblich. Allerdings verhindert sie auch die korrekte 
Analyse von Ausdrücken wie sasästhivasä. Anstelle der richtigen Analyse 
„ [Knochen vom Hasen] und [Fett vom Hasen] “ liefert das Programm hier 
„[Knochen vom Hasen] und [Fett]“, da der „Hase“ nur einmal verwendet 
werden darf. Gerade die Auflösung komplexer Komposita fällt aber eher 
in den Aufgabenbereich des menschlichen Bearbeiters. Da solche Fehler 
leicht erkannt und korrigiert werden können, wird die Bedingung trotz 
dieses Nachteils beibehalten. 

3. Wird mehreren Wörtern aus dem Sanskrit-Quelltext dieselbe syntaktische 
Funktion zugeordnet, werden diese Wörter mit dem Operator AND zu einem 
einzigen syntaktischen Element zusammengefasst. 

4. Es sollten möglichst viele Wörter aus dem markierten Sanskrit-Text durch 
die syntaktische Analyse abgedeckt werden. 

5. Ein Slot sollte möglichst nahe bei dem Wort stehen, auf das er sich bezieht. 

6. Der Begriff, auf den sich ein Slot bezieht, muss als Valenz oder Modifikator 
auftreten. - Der Ausdruck raktäsokapuspa lässt sich mithilfe von Slots als 
„Blüte ( asoka , rot)“ (= „eine Blüte, die von einem asoka -Baum kommt 
und die rot ist“) und „Blüte (asoka (rot))“ (= „eine Blüte, die von einem 
roten asoka -Baum kommt“) analysieren. Von diesen beiden Auflösungen 
ist nur die erste erlaubt. Diese Einschränkung ist rein praktisch motiviert, 
da das Programm Slots von Slots nicht verwalten kann. 

7. Slots sollten möglichst gleichmäßig über die Valenzen und Modifikatoren 
verteilt werden. - Wenn z.B. zwei Slots auf zwei Wörter verteilt werden 
können, wird die Lösung, in der jedem Wort ein Slot zugeordnet wird, 
höher bewertet, als wenn beide Slots demselben Wort zugeordnet werden. 

Nachdem für jedes Nomen und Adjektiv eine Liste möglicher Einsatzbereiche 
erstellt worden ist, sucht das Programm den wahrscheinlichsten (Bedingung 1) 
und längsten (Bedingung 4) Pfad (Bedingung 2) durch diese Kandidatenlisten, 
der Bedingung 6 nicht verletzt. Verletzen alle möglichen Pfade Bedingung 6, 
wird derjenige Slotkandidat aus den Kandidatenlisten entfernt, der die gerings¬ 
te Wahrscheinlichkeit besitzt, und die Pfadsuche wird wiederholt. Da es sich in 
den meisten Fällen um sehr wenige (<C 20) Quellwörter handelt, denen jeweils 
nur wenige Analysemöglichkeiten (-C 5) zugeordnet werden, kann die Pfadsuche 
über den gesamten Möglichkeitsraum durchgeführt werden. Sofern Bedingung 
6 nicht verletzt ist, führt die Pfadsuche daher zu einem - in Relation zur Da¬ 
tenbasis - global optimalen Ergebnis. Der Ablauf der gesamten Prozedur ist in 
Abbildung 3.9 schematisch dargestellt. 

Die selbstständige Extraktion von Verbalphrasen aus dem Quelltext ist, wie 
oben betont, kein vollwertiger syntaktischer Parser. Grenzen dieser Funktion 
zeigen sich in vielen Situationen. So löst die Funktion den Satz gomämse mähise 
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1. Quelltext: 

@ @ Q) (Q) 


2. Kandidaten erstellen: 



Abbildung 3.9: Ablauf der automatischen syntaktischen Analyse eines Quell- 
texts 


mütre dadhyamlatilatailayoh / ekaikam tridinam paktvä ... (RArn, 7, 48; „Man 
erhitze [Zinnober] jeweils (= ekaikam) drei Tage lang in Rindfleisch, Büffelurin, 
dadhi , sauren Säften und Sesamöl ... “) zu folgender Verbalphrase auf: 5 * * * 


Verb erhitzen 
Sub. [N.N.] 

[* Zinnober] 
[Fleisch (Kuh)] 
[Urin (Büffelkuh)] 
[dadhi] 

[saurer Saft] 
[Sesam (als Öl)] 


Obj. 


Das Programm übersieht bei dieser Analyse das Adverb ekaikam , das die Vertei¬ 
lung auf mehrere Arbeitsschritte ausdrückt und zu folgender richtiger Codierung 
führt: 


Verb erhitzen 


Verb erhitzen 

Sub. [N.N.] 


Sub. [N.N.] 

OBJ [[* Z ™ b “] l“ D 

UBJ ’ [ [Fleisch (Kuh)] J 


OBJ [ [* Zinnober ] 1 MD 

UBJ ' [ [Urin (Büffelkuh)] J 


5 In der gesamten alchemistischen Datenbank wurden Aussagen des Typs „man erhitze x 

in y u in der inhaltlich äquivalenten Form „man erhitze x und y il codiert. Das Analysemodul 

hat diese Umwandlung „gelernt“ und behandelt den Zinnober und die Flüssigkeiten daher als 

gleichgeordnete Objekte. 
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Da die syntaktische Funktion dieses Adverbs nicht in der SanskritProcess- 
Datenbank gespeichert werden kann, ist das Programm nicht in der Lage, die 
Funktion dieses Wortes aus vorhergehenden Fällen abzuleiten. Allerdings gerät 
in solchen Fällen auch der menschliche Bearbeiter schnell an die Grenzen seines 
Wissens. So lässt sich die Phrase dadhyamlatilataila je nach Kontext als [[da- 
dhi oder saurer Saft] und [Sesamöl]], [[dadhi] und [saurer Saft oder Sesamöl]] 
oder [[saures dadhi] und [Sesamöl]] interpretieren. Die Anforderungen an ein 
Computerprogramm sollten hier nicht zu hoch gesteckt werden. 


3.3 Die Codierung von Rezepten 


Wie lässt sich ein alchemistisches Rezept in diesem Sprachmodell codieren? 
Als Beispiel diene die einfache Vorschrift RArn, 6, 24, in der die dauerhafte 
Verflüssigung ( drävana ) von abhra (Glimmer, Talk) beschrieben wird: 


käkimbijacürnena ghrstamabhrakajam rajah / 
snuhiksirena saptäham siktam dhmätam drutam bhavet // 

„Pulver aus abhra wird mit Pulver vom Samen der Paternostererbse 
zerrieben. 

Es wird sieben Tage lang im milchigen Saft der Oleander-Wolfsmilch 
eingeweicht [und anschließend] erhitzt. [So] wird es verflüssigt. (24)“ 


Teilt man die Vorschrift in drei Unterschritte auf, ergibt sich die folgende 
Darstellung: 

Zeitmodell 7 Tage 


*1 “ 


Verb zerreiben 
Subj. [N.N.] 

[abhra] 


Obj. 


pulverförmig 

[Samen] 


Paternostererbse 


pulverförmig 


2.1 


Verb einweichen 
Subj. [N.N.] 

Obj. [abhra] 

Ins. [snuhl] 
als Saft 


Verb erhitzen 
Subj. [N.N.] 
Obj. [abhra] 


Die erste Verbalphrase 1.1 entspricht dem ersten Vers der Vorschrift. Das Passiv 
des Sanskrit-Textes wird in ein aktives Verb umgewandelt, zu dem das Standard- 
Subjekt „N.N.“ (also der Alchemist) ergänzt wird. In der Ontologie sind dem 
Verb „zerreiben“ neben dem Subjekt zwei weitere Valenzen zugeordnet. Das Ob¬ 
jekt beschreibt die Substanz, die zerrieben wird, der Instrumental ein Gerät, mit 
dem das Zerreiben durchgeführt wird. Der soziative Instrumental des Sanskrit- 
Textes ( käkimbijacürnena ) muss daher bei diesem Verb in ein Objekt umge¬ 
wandelt werden. Der Alchemist zerreibt in der codierten Vorschrift nicht „ abhra 
zusammen mit Samen von ... “, sondern „ abhra und Samen von ... “. abhra 
und Samen werden daher zu einem komplexen Objekt zusammengefasst. Je¬ 
des der Unterobjekte wird im Sanskrit-Text durch Zusatzangaben erweitert, die 
im Sprachmodell als Slots realisiert werden (vgl. S. 29ff.). Beide Substanzen 
werden in Pulverform benutzt ( cürna , rajas). In der Ontologie ist der Klasse 
„Objekt“, von der „Samen“ und „abhra“ abgeleitet sind, der Slot „Zustand“ 
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zugewiesen, der den Aggregatzustand des Objekts bezeichnet. Dieser Slot wird 
bei beiden Substanzen auf den Wert „pulverförmig“ gesetzt. Der „Samen“ wird 
daneben durch einen Slot „Material“ erweitert, der die Pflanze angibt, deren 
Samen benutzt wird. Der Ausdruck „Samen der Paternostererbse“ könnte auch 
durch einen genitivischen Modifikator für den Begriff „Samen“ oder durch einen 
Slot „Pflanzenteil“ für den Begriff „Paternostererbse“ realisiert werden. Wichtig 
ist nur, dass solche Konventionen innerhalb einer SanskritProcess-Datenbank 
konsistent befolgt werden. Analog wurden die restlichen beiden Verbalphrasen 
codiert. Oberhalb der Verbalphrasen ist der Verlauf des Zeitmodells angedeutet. 
Das Zeitmodell wird zuerst für die gesamte Vorschrift definiert. Dann werden 
einzelnen Elementen genaue Zeitangaben zugewiesen. Im vorliegenden Beispiel 
wird zuerst ein Zeitmodell mit der Gesamtdauer von sieben Tagen definiert und 
dann der zweiten Verbalphrase die Dauer „7 Tage“ zugewiesen. 

Genau wie beim Aufbau der Ontologie wird bei der Codierung von Vorschrif¬ 
ten in großem Umfang Expertenwissen in die Datenbank eingespeist. Zwei Punk¬ 
te müssen hier besonders beachtet werden. Erstens können die Vorschriften der 
Sanskrit-Texte meist nicht „wörtlich“ in die Datenbank übernommen werden. 
Tr otz ihres deskriptiven Charakters sind alchemistische Texte keine exakten wis¬ 
senschaftlichen Ablaufbeschreibungen im modernen Sinn. Äußerst beliebt sind 
Umschreibungen mit synonymen Verben, und auch das Metrum fordert häufig 
seinen Tribut. So wird das Verb ksip, das in den meisten Fällen nur „hinzufügen“ 
bedeutet, in einigen Vorschriften anstelle von äväpay verwendet, das eine spezi¬ 
elle Form des Mischens beschreibt. Um die inhaltliche Konsistenz der Datenbank 
zu gewährleisten, sollte in solchen Fällen das „richtige“ Wort (also äväpay) zur 
Codierung benutzt werden. Ein zweites großes Problem stellt die knappe Aus¬ 
drucksweise vieler Vorschriften dar, die geläufige Zwischenschritte als bekannt 
voraussetzen und deshalb nicht erwähnen. Nimmt man nur diejenigen Schrit¬ 
te auf, die wirklich in einer Vorschrift erwähnt werden, ist diese Darstellung 
häufig unvollständig. Werden dagegen zu viele Zwischenschritte ergänzt (s. S. 
32, „virtuelle Elemente“), wird die Vorschrift möglicherweise verfälscht. Eine 
allgemein gültige Lösungsstrategie lässt sich für dieses Problem wahrscheinlich 
nicht entwickeln. Innerhalb kleiner Gruppen von Vorschriften (z.B. „drävana 
von abhra “) hat sich aber die (sparsame) Ergänzung fehlender Elemente auf 
Basis eines vorläufigen Gruppen-Alignments (s. Kap. 4) bewährt. Dazu werden 
in einem ersten Schritt alle Vorschriften eines Themengebiets so sparsam wie 
möglich codiert in die Datenbank aufgenommen. Aus diesen Vorschriften wird 
ein Alignment konstruiert, aus dem sich Gruppen zusammengehöriger, wenn 
auch unterschiedlich detailliert beschriebener Prozeduren ablesen lassen. Mithil¬ 
fe dieser Gruppeninformation können dann die sparsam codierten Vorschriften 
anhand ähnlicher, aber ausführlicherer Vorschriften derselben Gruppe ergänzt 
werden. 
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Kapitel 4 

Das Alignment codierter 
Vorschriften 


Beim Alignment werden Vorschriften verglichen, die denselben Grundablauf dar¬ 
stellen. Existieren z.B. dreißig Vorschriften, die die Reinigung von Quecksilber 
beschreiben, lässt sich mithilfe des Alignments bestimmen, welche Elemente al¬ 
len Vorschriften gemein sind und welche eher als Variationen oder Versatzstücke 
interpretiert werden können. Beim Alignment werden also Kernabläufe einer 
Prozedur rekonstruiert. Außerdem lässt sich mithilfe des Alignments einfach 
erkennen, welche Texte einen Prozess auf dieselbe Art beschreiben („Schulbil¬ 
dung“). Diese Ergebnisse können zur Datierung von Texten weiterverwendet 
werden (Kap. 7). 

Ausgangsidee für das Alignment war eher ein Bild als ein festgefügtes theo¬ 
retisches Gerüst. So wie in der Bioinformatik Genomsequenzen unterschiedli¬ 
cher Taxa zueinander in Parallele gesetzt werden, müssten auch im vorliegen¬ 
den Sprachmodell codierte Handlungssequenzen miteinander verglichen werden 
können, wenn man die Verbalphrasen als kleinste Einheiten der Vorschriften in¬ 
terpretiert. Dieser Ansatz hat den Vorteil, dass die Bioinformatik über eine Viel¬ 
zahl gut dokumentierter und vor allem funktionierender Algorithmen verfügt, 
die mit relativ geringem Aufwand für die vorliegende Aufgabe umgeformt wer¬ 
den können. Die Grundideen für das Alignment alchemistischer Vorschriften 
werden auf den nächsten Seiten anhand von Beispielen demonstriert. Der Text 
lehnt sich an die Darstellungen in [36] und [40] an. 


4.1 Alignment von zwei Vorschriften 

Was kann man sich unter dem Alignment von zwei alchemistischen Vorschriften 
vorstellen? Angenommen, in alchemistischen Texten träten nur drei verschiedene 
Verbalphrasen auf: A: „N.N. erhitzt Quecksilber“, B : „N.N. vermischt Quecksil¬ 
ber und Saft von Oleander“ und C : „N.N. drückt Quecksilber durch ein Stück 
Stoff“. Zwei Vorschriften beschreiben dieselbe Grundprozedur (z.B. „Reinigung 
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von Quecksilber“) in den Formen BACAB und BAACB. Ziel eines optimalen 
Alignments ist es, diese beiden Vorschriften so „untereinander“ zu schreiben, 
dass möglichst viele direkt untereinander stehende Symbole identisch sind und 
das Ergebnis möglichst kurz ist. Die beiden Sequenzen könnte man so anordnen, 
dass sie in ihrer längsten gemeinsamen Teilsequenz AC korrespondieren: 

BACAB 

I I 

BAACB 

Die Zahl übereinstimmender Symbole, die im Diagramm mit senkrechten Linien 
verbunden sind, lässt sich erhöhen, wenn man Lücken ( gaps ) in die Sequenzen 
einfügt. Dadurch wird das erste Symbol der ersten Sequenz nach vorne und das 
letzte Symbol der zweiten Sequenz nach hinten verschoben: 

B - A C A B 

I II I 

B A A C - B 

Nach Einfügen von zwei Lücken (-) stimmen die beiden Vorschriften in vier 
Symbolen bzw. Verbalphrasen überein. Das Alignment der beiden Vorschriften 
lässt sich jetzt von links nach rechts entlang eines impliziten Zeitstrahls lesen. 
Übereinstimmende Symbole (fettgedruckt) zeigen den Kernbestand an, der in 
beiden Vorschriften auftritt und die rekonstruierte Grund Vorschrift darstellt: 

Vorschrift 1 | Vorschrift 2 

vermischen 

I erhitzen 
erhitzen 
durchdrücken 
erhitzen | 

vermischen 

Ein manuelles Alignment ist nur für kleine Symbolalphabete und wenige, kurze 
Sequenzen möglich. Das Alignment mehrerer umfangreicher Sequenzen, die aus 
einem großen Alphabet, d.h. einem großen Bestand verschiedener Verbalphra¬ 
sen gebildet sind, sollte dagegen rechnerisch durchgeführt werden. Die dafür 
benötigten Algorithmen wurden u.a. in der Bioinformatik für das Alignment 
von Genomen entwickelt und in dieser Arbeit für den philologischen Gebrauch 
ausgebaut. Das Alignment alchemistischer Vorschriften wird auf den nächsten 
Seiten zuerst am einfachsten Fall, dem Alignment von zwei Vorschriften, be¬ 
schrieben. Als Beispielsequenzen dienen Reinigungvorschriften für Realgar ( ma- 
nahsilä , silä) aus RSS, 1,191 und SdhSamh, 2,11, 72-73. Gerade weil die beiden 
Vorschriften so übersichtlich aufgebaut sind, dass man sie problemlos von Hand 
parallelisieren könnte, lassen sich an ihnen die Probleme eines automatisierten 
Alignments gut demonstrieren. 

Nach RSS, 1, 191 (5i) wird Realgar mit Pflanzensäften und dann mit Zie¬ 
genurin einem svedana („Dünstung“) unterzogen und anschließend mit äranäla , 
einer sauren, vergorenen Flüssigkeit, gewaschen: 
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jayantibhrngaräjotthai raktägastyarasaih silä / 
doläyantrair dinam päcyä yämarn chägasya mütrake / 
ksälayedäranälena sarvarogesu yojayet // 

„Mit Säften von Sesbania cannabina (Retz.) Pers., Eclipta prostrata 
L. und der roten Großblütigen Sesbanie erhitze man Realgar 
einen Tag lang in einem doläyantra , [dann] einen prahara lang in 
Ziegenurin. 

Man wasche ihn mit äranäla. Man setze ihn bei allen Krankheiten 
ein. (191)“ 

SdhSamh, 2, 11, 72-73 (S 2 ) beschreibt nur das svedana in Ziegenurin und 
ein anschließendes Einweichen in Ziegengalle: 

pacet tryaham ajämütrair doläyantre manahsiläm // 
bhävayetsaptadhä pittairajäyäh suddhimrcchati / 

„Man erhitze Realgar drei Tage lang in einem doläyantra mit Zie¬ 
genurin. (72) 

Siebenmal weiche man ihn in Ziegengalle ein. Er wird rein. (73)“ 


In der folgenden Codierung werden das Standardsubjekt „N.N.“ (d.h. der 
Alchemist), Zeitangaben, Slots und die logische Struktur der Valenzen nicht 
dargestellt: 


« 11 ' 


S 1 


S 2 


Verb sveday 
Obj. [Realgar] 

[Sesbania cannabina 
(Retz.) Pers.] 
[Eclipta prostrata L.] 
[Großblütige Sesbanie] 
Ort [doläyantra] 


Ins. 


V12 

Verb sveday 
Obj. [Realgar] 

Ins. [Urin] 

Ort [doläyantra] 


V21 

Verb sveday 
Obj. [Realgar] 

Ins. [Urin] 

Ort [doläyantra] 



V22~ 


Verb einweichen 


Obj. [Realgar] 


.Ins. [Galle] 


«13 

Verb waschen 
Obj. [Realgar] 
Ins. [äranäla] 


Das Alignment zwischen den beiden Sequenzen Si (Länge: n\ = 3) und S 2 
(Länge: ri 2 = 2) wird mithilfe eines sogenannten Dotplots konstruiert. Hierbei 
handelt es sich um eine (n\ + 1) x (712 + 1)-Matrix, deren Zellen akkumulier¬ 
te Vergleichswerte zwischen den Symbolen der beiden Sequenzen aufnehmen. 
Das Alignment zerfällt in zwei Schritte. Im ersten Schritt wird die Dotplot- 
Matrix von links oben nach rechts unten mit den akkumulierten Vergleichs¬ 
werten zwischen den Symbolsequenzen gefüllt. Im zweiten Schritt wird in der 
entgegengesetzten Richtung mithilfe einer Zeigervariablen ein optimaler Pfad 
durch die Matrix konstruiert, der das Alignment beschreibt. Im ersten Schritt 


wird der Vergleichswert Vij (Score) zwischen zwei Symbolen (= Verbalphrasen) 
V\i und V 2 j aus vorhandenen Elementen der Matrix berechnet und in ihre Zelle 
(i,j) eingetragen. Er ist als Maximum der drei Werte Vi-ij + 7 , Vij -1 + 7 
und Vi-ij-i + A(vu,V 2 j) definiert, die mit den drei Summanden Vi*j*, 7 und 
A(i>i i, V2j) operieren. Alle Werte lassen sich direkt aus der Dotplot-Matrix 

ablesen, da sie in den vorhergehenden Schritten berechnet bzw. vor dem ersten 
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Schritt auf 0 gesetzt wurden. 7 bezeichnet einen Strafwert, mit dem eine Lücke 
im Alignment bewertet wird und der meist kleiner als 0 ist (gap penalty). Wie 
man an der Indizierung (Vi_i j, Vi,j-i) erkennen kann, bewirkt das Einfügen 
von 7 eine horizontale bzw. vertikale Bewegung in der Dotplot-Matrix, die bei 
der Konstruktion des Alignments aus der Dotplot-Matrix in eine Lücke umge¬ 
wandelt wird. 

Der Ausdruck A(vu,V 2 j) erfasst die Ähnlichkeit der Verbalphrasen vu und 
V 2 j und ist daher von zentraler Bedeutung für das Alignment. Beim Alignment 
von Sequenzen, die aus kleinen Alphabeten generiert sind, werden häufig vor 
Beginn des Alignments Ähnlichkeitswerte für alle möglichen Paarungen unglei¬ 
cher Symbole definiert. So könnte man vereinbaren, dass bei einem Alphabet 
{A, B, C} die Funktion A(x, y) den Wert +1 zurückgibt, wenn x und y identisch 
sind (d.h. A(A, A) = 1, A (B,B) = 1 usw.), während sie bei x ^ y den Wert -1 
liefert (d.h. A (A,B) = —1 usw.). Übertrüge man diesen Ansatz auf das Align¬ 
ment alchemistischer Rezepte, wären Übereinstimmungen nur zwischen identi¬ 
schen Verbalphrasen möglich. Sobald zwei Verbalphrasen nur in einem einzigen 
Detail nicht übereinstimmten, könnte ihnen bei solch einer strikten Funktion 
kein positiver Ähnlichkeitswert zugewiesen werden. Dass diese Lösung nicht zu¬ 
friedenstellend ist, ist leicht nachvollziehbar. So sind z.B. die Verbalphrasen 
„N.N. wäscht Realgar mit Blut“ und „N.N. wäscht Realgar mit Ziegenblut“ 
nach dem strikten Modell nicht identisch. Trotzdem ist dem menschlichen Le¬ 
ser sofort klar, dass eine der beiden Verbalphrasen die andere nur geringfügig 
spezialisiert (Blut —> Ziegenblut) und beide Verbalphrasen daher fast dasselbe 
bedeuten. Dem Programm SanskritProcess steht mit der Ontologie ein Werk¬ 
zeug zur Verfügung, mit dem die Ähnlichkeit von Konzepten bewertet werden 
kann (vgl. S. 27). Der Ähnlichkeitswert A(vu,V 2 j) wird für jedes Paar von Ver¬ 
balphrasen zur Laufzeit anhand der ontologischen Ähnlichkeit der enthaltenen 
Konzepte berechnet. Um diesen Ähnlichkeitswert für die erste Kombination im 
aktuellen Alignment, d.h. A(r>n,r^i) (im folgenden als An abgekürzt), zu be¬ 
rechnen, wird eine Summe S definiert, die zu Beginn des Vergleichs von v\\ und 
V 21 auf den Wert 0 gesetzt wird. Eine volle Übereinstimmung in der Verbal¬ 
komponente der Verbalphrasen (hier: sveday = sveday ) erhöht 6 um den Wert 
+4, eine volle Übereinstimmung bei einer Valenz oder einem Modifikator (d.h. 
gleicher Typ und gleicher Ontologie-Eintrag) um den Wert +3. Abbildung 4.1 
zeigt die Details der Ähnlichkeitsberechnung. Die höchste Summe 5 max ergäbe 
sich, wenn beide Verben in allen Elementen übereinstimmten. Im vorliegenden 
Fall gälte $ max = 1-4 [Verb] +4-3 [Val.] +1-3 [Mod.] = 19. Auf ein Intervall 
[0,10] skaliert ergibt sich An = 10 • = 10 • 4+ 1 3 9 +3 = 5. Das Paar (vn,V 2 i) 

erhält also 5 von 10 möglichen Punkten. Bei einem Strafwert von 7 = — 5 ergibt 
sich für Vn 



Dieser Wert wird zusammen mit der Information über das Vorgängerfeld (Zei¬ 
gervariable) in das erste freie Feld der Dotplot-Matrix eingetragen. Nach Itera- 
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Vll 


V 21 

Verb 


+4 





Obj. 

[Realgar]- 

+3 

-[Realgar] 

Ins. 





[Sesbania cannabina (Retz/ 

) Pers.] 



[Eclipta prostrata L.] 


■ ±0 . [Urin] 


[Großblütige Sesbanie] 



Ort 

[doläyantra]- 

+3 

-[doläyantra] 


Abbildung 4.1: Berechnung der Ähnlichkeit von zwei Verbalphrasen 


★ 1 “ 


Verb sveday 




Obj. 

Realgar] [1] 




*2' 


" [Sesbania canna¬ 



Verb 

sveday 


bina (Retz.) Pers.] [1] 



Obj. 

[Realgar] 

Ins. 

[Wedelia calendu- 



Ins. 

[Urin] 

lacea Less.] [1] 




Ziege 


[Großblütige 
_ Sesbanie] [1] 



.Ort 

[doläyantra] _ 

Ort 

doläyantra] [1] 





f2 

Verb einweichen 
Obj. [ Realgar ] [2] 
Ins. [Galle] [2] 
Ziege 



ti' 

Verb waschen 
Obj. [ Realgar ] [1] 
Ins. [äranäla] [1] _ 


Abbildung 4.2: Alignment der Reinigungsprozeduren für Realgar aus RSS, 1, 
191.1 (1) und SdhSamh, 2, 11, 72.2-73.1 (2) 


tion über alle z (1 < z < ni) und alle j (1 < j < 712 ) ergibt sich nach dem ersten 
Schritt des Alignments eine vollständig ausgefüllte Dotplot-Matrix. Der Wert in 
der rechten unteren Ecke der Matrix ist der Gesamtscore, der die Ähnlichkeit 
der beiden verglichenen Sequenzen quantifiziert. 

Im zweiten Schritt des Alignments wird anhand dieser Matrix eine paar¬ 
weise Zuordnung zwischen den Elementen der beiden Sequenzen erstellt. Der 
dafür eingesetzte Needleman-Wunsch-Algorithmus ([54]) startet in der rechten 
unteren Ecke der Dotplot-Matrix und durchläuft sie in umgekehrter Richtung 
nach links oben. Dabei geht er von jedem Punkt (z, j) zu demjenigen seiner drei 
Vorgänger (z, j — 1), oder (z — 1, j — 1) zurück, der in der Zeigervariablen 

notiert ist. Findet sich dieser Vorgänger nicht in der Diagonalen bei (z — l,j — 1), 
wird in einer der Ausgabesequenzen eine Lücke eingefügt, die der Addition des 
Strafwerts im Vorwärts-Durchlauf entspricht. Nach Abschluss des Rückwärts- 
Durchlaufs können die zwei Vorschriften anhand der Ausgabesequenz paralle- 
lisiert werden. Abbildung 4.2 zeigt das Ergebnis als DT^X-Strukturdiagramm. 
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Das Alignment lässt sich komprimieren, wenn man die Verbalkomponenten 
von Verbalphrasen weniger streng bewertet. Bis jetzt beruht das Verfahren auf 
der Annahme, dass nur Verbalphrasen mit identischen Verbalkomponenten zu¬ 
einander in Beziehung gesetzt werden können. „Waschen“ kann z.B. nur mit 
„waschen“, nicht aber mit „abspülen“, „eintauchen“ usw. kombiniert werden. 
Während die Verbalkomponenten bei diesem Verfahren zu streng behandelt wer¬ 
den, lieferte eine entfernungsbasierte Ähnlichkeitsbestimmung wie bei Objekten 
(s. S. 45) keine zufriedenstellenden Ergebnisse. Eine Lösung bietet das Konzept 
der „befreundeten“ Verben. Solche Verben, die vom Benutzer paarweise aus¬ 
gewählt werden, können einander beim Alignment ersetzen. Ihre Korrespondenz 
wird aber niedriger bewertet (vgl. S. 44). Im vorliegenden Fall sind die Verben 
^13 („waschen“) und V 22 („einweichen“) „befreundet“. Das dadurch noch ein¬ 
mal vereinfachte Strukturdiagramm (s. Abb. 4.3) ersetzt die unterschiedlichen 
Verben an der dritten Position durch die erste übergeordnete Klasse der Verbal- 
Ontologie, das abstrakte (s. S. 34) Verb „[mit einer Flüssigkeit behandeln]“, das 
in der Ausgabe durch das Symbol fl markiert ist. Falls befreundete Verben un¬ 
terschiedlich viele Valenzen besitzen oder sich ihre Valenzen funktionell unter¬ 
scheiden, können spezielle Zuordnungsregeln definiert werden. In diesen Regeln 
wird fest gelegt, welche Valenz des Quellverbs mit welcher Valenz des Zielverbs 
funktionell identisch ist: 


VERB einkochen 


Obj. 

[Blei] ' 
[Salz] 


+ 


Verb kochen 
Obj. [Blei] 



’ fl Verb erhitzen 


Obj. 

■ [Blei] ] 

[Salz] 



_ [Moschus] J _ 


In diesem Beispiel sind „kochen“ („Blei zusammen mit Moschus kochen“) und 
„einkochen“ („Blei und Salz einkochen“) als befreundet markiert und werden im 
Verlauf des Alignments zu dem übergeordneten Verb „erhitzen“ zusammenge¬ 
fasst. Allerdings besitzt „erhitzen“ in der Ontologie keine Instrumental-Valenz, 
die der soziativen von „kochen“ funktionell entspricht. Hier wird eine Zuord¬ 
nungsregel in die Wissensbasis eingefügt, die den Instrumental von „kochen“ 
auf das Objekt von „erhitzen“ abbildet und so eine korrekte Vereinigung der 
Verben garantiert. 


4.2 Alignment von mehr als zwei Vorschriften 

Obwohl sich das mathematisch exakte Verfahren, das im vorausgehenden Ab¬ 
schnitt beschrieben wurde, auf das Alignment von mehr als zwei Sequenzen 
erweitern lässt, nehmen die Anforderungen an Speicherplatz und Rechenzeit 
mit jeder neuen Sequenz so explosionsartig zu, dass selbst moderne Computer 
schnell überfordert sind. Um diese numerischen Probleme zu umgehen, wird für 
das Alignment von mehr als zwei Sequenzen nur noch eine Näherungslösung 
gesucht. Dafür werden zuerst alle paarweisen Alignments berechnet. Aus den 
Gesamtscores dieser paarweisen Alignments wird mithilfe eines Clusteralgorith¬ 
mus ein Baum abgeleitet, der die Reihenfolge des Alignments aller Sequenzen 
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Verb 

Obj. 


Ins. 


Ort 


sveday 
[Realgar ] [1] 
[Sesbania 
cannabina 
(Retz.) Pers .] 
[Eclipta pro- 
strata L.] [1] 

[Großblütige 
Sesbanie] [1] 
[doläyantra] [1] 




in 


[i] 



★ 2 

Verb 

sveday 

Obj. 

[Realgar] 

Ins. 

[Urin] 

Ort 

[dolä- 


yantra] 


JJVerb mit einer Flüssig¬ 
keit behandeln 
Obj. [Realgar] 

[ [äranäla] [1] 

[ [Galle] [2] 


Ins. 


Abbildung 4.3: Alignment der Sequenzen 5i und S 2 nach Einsatz von „befreun¬ 
deten“ Verben 


beschreibt. Das Verfahren wurde u.a. von Thompson entwickelt ([79]) und ist 
z.B. in [36], 185ff. bzw. 197ff. detailliert dargestellt. 

Ausgangspunkt des Alignments von n Sequenzen ist eine n x n- Abstands¬ 
matrix Mj). Jeder Zellwert (i,j) wird aus dem Gesamtscore berechnet, der sich 
beim exakten paarweisen Alignment der Sequenzen Si und Sj ergibt. Aller¬ 
dings kann dieser Gesamtscore nicht direkt in Md eingetragen werden, da sich 
bei einem schlechten Alignment ein negativer Gesamtscore ergibt und der Ge- 
samtscore zusätzlich von der Länge der zwei verglichenen Sequenzen abhängt. 
[36, 186] schlägt vor, den Abstand d(Si, Sj) zwischen Si und Sj mit folgender 
Formel zu berechnen, wobei V den Gesamtscore zwischen den zwei Sequenzen 
bezeichnet: 


d(Si,Sj) = - log 


V Vrand 

bnax Wand 


Dabei steht V ran d für den Gesamtscore zweier gleichlanger Sequenzen, die aus 
zufällig gewählten Symbolen des Grundalphabets bestehen, und Vmax für den 
Mittelwert der zwei Gesamtscores, die sich aus dem Alignment von Si und Sj mit 
sich selbst ergeben. Da die Generierung zufälliger Sequenzen von Verbalphra¬ 
sen nicht trivial ist, habe ich mich für eine einfachere Berechnung von d(Si, Sj) 
entschieden. Die Ähnlichkeit zweier Verbalphrasen, d.h. zweier Einzelsymbole 
einer Sequenz, kann maximal mit dem Wert 10 bewertet werden (vgl. S. 44). 
Minimal kann ein Paar von Verbalphrasen den Wert 7 = — 5 ausgeben. Der 
maximale Gesamtscore V max zwischen zwei Sequenzen ergibt sich als Produkt 
aus der Länge der längeren der beiden Sequenzen Ip, und dem maximalen paar¬ 
weisen Ähnlichkeitswert 10, Wnn analog als Produkt von Ip, und dem minimalen 
paarweisen Ähnlichkeitswert 7 = —5. Für d(Si,Sj) ergibt sich die folgende Be¬ 
rechnungsvorschrift, die den Wert auf das Intervall [0,1] skaliert: 


d{Si,Sj) = 1 


V- 

Vnax 


Wnin 

kmin 


Diese Werte werden für sämtliche möglichen Sequenzpaare in die symmetrische 
Abstandsmatrix Md eingetragen. Aus Md wird dann mit einem hierarchischen 
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Clusteralgorithmus ein Baum abgeleitet, der die Reihenfolge der Gruppierung 
beschreibt. Der hier benutzte UPGMA-Algorithmus ([77]) fasst in jedem Iterati¬ 
onsschritt die beiden Elemente zu einem Cluster zusammen, die in Md den 
geringsten Abstand besitzen. 1 Zur Initialisierung wird jeder der n Zeilen und 
Spalten von Md die zugehörige Sequenz zugewiesen, die als ein Cluster des Um¬ 
fangs 1 interpretiert wird. Im ersten Schritt werden die beiden Cluster mit dem 
geringsten Abstand zu einem neuen Cluster vom Umfang 2 zusammengefasst. 
Md wird um eine Zeile und eine Spalte verkleinert, da zwei Elemente zu einem 
einzigen verschmolzen wurden. Die neuen Zellwerte der (n — l)-zeiligen und - 
spaltigen Matrix können rekursiv aus den Werten ihrer Vorgänger berechnet 
werden (vgl. [36, 198]). Ci und Cj bezeichnen die Cluster mit dem geringsten 
Abstand in der aktuellen Iteration und \Ci\ und \Cj\ die Gesamtzahlen derjeni¬ 
gen Sequenzen, die in den beiden Clustern enthalten sind. Der Abstand zwischen 
dem neuen Cluster Cujj und allen anderen Clustern Ck berechnet sich als 


^(iUj) k 


dik ‘ \Ci\ ~\~ djk I Cj 

\Ci\ + \Cj\ 


dik und djk lassen sich direkt aus Md ablesen, \Ci\ und \Cj\ ergeben sich durch 
einfaches Auszählen. Der Algorithmus bricht ab, sobald Md nur noch aus ei¬ 
ner Zeile und einer Spalte besteht. Das Ergebnis dieser Gruppierung kann mit 
dem Programm SanskritProcess in Form sogenannter Cluster-Dendrogramme 
ausgegeben werden, die den Gruppierungsprozess grafisch nachbilden (s. Abb. 
4.4) und sich u.a. dazu eignen, Gruppenbildungen bei Prozedurbeschreibungen 
aufzudecken (vgl. Kap. 4.4). 

Die folgende Abbildung zeigt das Cluster-Dendrogramm für vier Vorschriften 
zur Reinigung von Schwefel. Das Dendrogramm besteht aus Knoten, in denen 
die niedrigsten Zellwerte von Md aus jeder Iteration gespeichert sind, nume¬ 
rierten Blättern, die auf die Ausgangssequenzen zeigen, und Ästen, die Knoten 
und Blätter miteinander verbinden. Ein besonderer Knoten ist die Wurzel, die 
im letzten Iterationsschritt als Verbindung der zwei übrig gebliebenen Cluster 
eingefügt wird: 



2 4 13 


Was ist durch diese Anordnung gewonnen? Im Verlauf der Clusterbildung wer¬ 
den immer die zwei Einzelsequenzen bzw. Sequenzgruppen, die sich nach Aus¬ 
sage ihres Abstandswerts in Md am ähnlichsten sind, zu einem neuen Cluster 
zusammengefasst. Das resultierende Dendrogramm liefert also eine Anleitung 
für das Alignment aller Sequenzen. Die Verbindung der Sequenzen, die in den 
Blättern des Baums gespeichert sind, bestimmt die Reihenfolge, in der sie per 
Alignment parallelisiert werden. Wie in Abbildung 4.4 dargestellt, beginnt das 

1 Zu Einschränkungen und theoretischen Grundlagen des Verfahrens s.a. S. 95. 
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C, 


((1U3)U4)U2 


C, 


(1U3)U4 


- ClU3 | - 


3. Alignment: 
0((iu3)u4) + S 2 
2. Alignment: 
^(iu3) + 5* 

1. Alignment: 
51+53 


5i = Ci S 3 = C 3 S 4 = C 4 S 2 = C 2 


Abbildung 4.4: Reihenfolge des Alignments mehrerer Sequenzen anhand ihrer 
Position im Cluster-Dendrogramm 


Alignment bei Knoten, denen zwei Blätter untergeordnet sind (S 1 , S 3 ). Die Se¬ 
quenzen, die sich an diesen Blättern befinden, werden in Parallele gesetzt und 
dann rekursiv mit Alignments verschmolzen, die sich aus derselben Prozedur an 
anderen Ästen ergeben haben. Die Prozedur bricht ab, wenn alle Cluster bzw. 
die in ihnen enthaltenen Sequenzen zu einem einzigen Alignment zusammen¬ 
gefügt worden sind, das als Ergebnis ausgegeben wird. 

Zum Alignment zweier Sequenzcluster wird grundsätzlich dieselbe Prozedur 
wie zum Alignment zweier Sequenzen benutzt. Um die Übereinstimmung an ei¬ 
ner Position (i,j) der Dotplot-Matrix festzustellen (vgl. S. 44), wird aber über 
alle paarweisen Ähnlichkeiten zwischen zwei Clustern gemittelt. Das Ähnlich¬ 
keitsmaß zwischen Ck und Ci an der Position (i,j) berechnet sich nach [77] 
als 


A {C ki ,C h ) 


S peCk.gec, A(Pi.gj) 

I C k \ ■ |Ci| 


Der UPGMA-Algorithmus gehört zu den sogenannten greedy- Algorithmen, da 
er zum Erreichen eines Optimums „gierig“ die günstigste lokale Lösung wählt. 
UPGMA erstellt einen neuen Cluster immer aus den beiden am nächsten beieinan¬ 
der liegenden Clustern. Algorithmen dieser Klasse führen zu einem Optimum, 
das aber oft nur lokal ist (vgl. z.B. [35, 192]). Auf dieselben Daten angewen¬ 
det produziert der UPGMA-Algorithmus zwar immer dasselbe Alignment. Dieses 
Alignment ist aber nicht unbedingt die global beste Lösung. 


4.3 Alignment mit Zusatzbedingungen 

4.3.1 Integration von Vorwissen 

Das Alignment lässt sich in einigen Fällen durch Vorwissen verbessern, mit dem 
die Möglichkeiten des Alignments eingeschränkt werden. Solche Einschränkun¬ 
gen können z.B. fest legen, dass bestimmte Verbalphrasen im Alignment mitein- 
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ander kombiniert werden müssen. Methoden zur konsistenten Integration von 
Einschränkungen sind ein wichtiges Feld der bioinformatischen Forschung und 
werden z.B. in [51] beschrieben. Da in der indischen Alchemie nur sehr kurze 
Sequenzen auftreten und sich das nötige Vorwissen meist erst aus einem (subop¬ 
timalen) Alignment ergibt (vgl. S. 39), erscheint es mir praktischer, anstelle des 
Alignment-Algorithmus die Strukturdiagramme zu verändern, indem man Teile 
von ihnen verschiebt. Während dieser Schritt bei normalen Diagrammen trivial 
ist, muss man bei Alignment-Diagrammen die zeitliche Reihenfolge der Ver¬ 
balphrasen berücksichtigen, die bei einer Veränderung des Diagramms erhalten 
bleiben muss. 

Die Positionsveränderung von Elementen einer Sequenz wird dafür in zwei 
Schritte aufgeteilt. Zuerst wird überprüft, ob die gewünschte Positionsverände¬ 
rung überhaupt zulässig ist (Gültigkeitsprüfung). Ist sie zulässig, werden die 
betroffenen Elemente verschoben. Die Verbalphrase, deren Elemente verscho¬ 
ben werden sollen, wird im folgenden als Aq bezeichnet, die Ziel-Verbalphrase, 
in die die Elemente von Aq verschoben werden sollen, als Az- clq bezeichnet 
diejenigen Elemente von Aq , die der Quellsequenz Si entstammen. pos(A x ) ist 
die absolute Position einer Verbalphrase im Strukturdiagramm. p l ist der Pfad 
durch das Diagramm, der alle Verbalphrasen aus Si durchläuft. p\q sind die Ver¬ 
balphrasen A x auf diesem Pfad, für deren absolute Position pos(A x ) < pos(Aq) 
gilt, die also vor Aq liegen; genauso pl^q für alle Verbalphrasen, die hinter Aq 
liegen. 

Gültigkeitsprüfung 

Die Elemente Oq dürfen nur nach Az verschoben werden, wenn weder ein A x , 
das auf dem direkten Weg von Aq nach Az liegt, noch Az selber Elemente der 
Sequenz Si enthalten, da sonst die Zeitstruktur verletzt wird. 


erlaubt für 



Verschieben 

Bevor die Elemente üq nach Az verschoben werden, muss die Auswirkung dieser 
Bewegung auf die nach Aq folgenden Verbalphrasen der Sequenz Si , also auf 
PyQ untersucht werden. Wenn Az von Aq n Schritte entfernt ist, wird für alle 
a x £ PyQ untersucht, ob sie sich n Schritte bewegen lassen, ohne dabei die 
Zeitstruktur des Diagramms zu verletzen. Anders ausgedrückt: Die Elemente in 
PyQ sollen so weit wie möglich „nach rechts“ verschoben werden und dabei ihre 
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zeitliche Anordnung behalten. Dafür beginnt man beim letzten Element von 
PyQ, dessen Verbindungen zu nachfolgenden Verbalphrasen überprüft werden. 
Diese Verbalphrasen können selbst keine Elemente von Si mehr enthalten. Die 
maximale Bewegungsmöglichkeit dieses letzten Elements unter Beibehaltung der 
Verbindungsstruktur entspricht der geringsten Entfernung d m i n zu einem seiner 
Nachfolger. Ist d m i n > n, kann das letzte Element um n Schritte nach rechts 
bewegt werden. Genauso werden dann alle vorangehenden Verbalphrasen in p l y q 
verschoben. 


Verschieben der 
Elemente von S\ in 
Aq (= clq) um n — 2 




Lässt sich ein Element nicht um n Positionen „nach rechts“ bewegen, muss 
die Struktur des Diagramms verändert werden. Alle Elemente in Pyq, deren 
Position kleiner oder gleich pos(Az) ist und die nicht um n nach rechts bewegt 
werden können, werden direkt vor dem ersten unbewegbaren Element aus pl^q 
in neuen „Spalten“ in das Diagramm eingefügt. Auf der Ebene des Alignments 
entspricht diese Operation dem Einfügen von Lücken in alle Sequenzen außer Si. 
Enthält eine der so bewegten Verbalphrasen Elemente aus anderen Sequenzen als 
Si , muss diese Verbalphrase aufgeteilt werden. Alle Elemente wie Valenzen oder 
Modifikatoren, die nicht zu Si gehören, verbleiben in der Verbalphrase an der 
ursprünglichen Position, während die Elemente aus Si in eine neue Verbalphrase 
kopiert werden: 
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Vor Verschieben: 

Elemente aus Si 


Si,s 2 


s 2 ■ 


' X Az 
-S 2 ,S 3 ,Si - 


-s 3 


■s 2 ,s 3 


Si,S 4 |- 




-Sr 

pIq 


|Sl,S2| 

nicht verschiebbar! 
Nach Verschieben: 



neue ” Spalte” 


4.3.2 Alignment mit Sub-Strukturen 

Eine weitere Form von Vorwissen betrifft die Übereinstimmung zwischen ganzen 
Blöcken von Verbalphrasen. Alchemistische Vorschriften sind häufig in mehrere, 
funktional verschiedene Unterabschnitte gegliedert. Im ersten Abschnitt wird 
z.B. eine Reagenz zubereitet, mit der die Hauptsubstanz im zweiten Abschnitt 
dann weiterbehandelt wird. Beispiele solcher Gliederungen finden sich v.a. bei 
den alchemistischen samskäras (Spezialbehandlungen für Quecksilber) und kom¬ 
plexen Metall-Rezepten, in denen unedle in edle Metalle transformiert werden. 
Da diese Blöcke logische Gliederungseinheiten einer Vorschrift darstellen, sollten 
Verbalphrasen aus unterschiedlichen Gliederungseinheiten bei einem Alignment 
nicht kombiniert werden, selbst wenn ihre Kombination numerisch hoch bewer¬ 
tet wird. 

Das Programm SanskritProcess bietet die Möglichkeit, unterschiedliche 
logische Abschnitte einer Vorschrift mit benutzerdefinierten, beliebig tief ver¬ 
schachtelten Strukturen zu markieren. Beim Alignment dürfen nur Verbalphra¬ 
sen, die mit derselben logischen Struktur markiert sind, oder unmarkierte Ver¬ 
balphrasen miteinander kombiniert werden. Kombinationen von Verbalphrasen 
aus unterschiedlichen logischen Strukturen werden dagegen mit einem sehr ho¬ 
hen Strafwert belegt und so beinahe unmöglich gemacht. Um die Eingabe zu 
vereinfachen, kann innerhalb einer Gruppe von Strukturen eine Struktur als 
Standard markiert werden. Diese Struktur dient als eine Art Joker, der mit 
unmarkierten Verbalphrasen aus anderen Vorschriften kombiniert werden kann. 


4.4 Einsatzbereiche des Alignments 

Das Alignment von Vorschriften stellt ihre gemeinsamen Elemente und ihren 
Kernablauf in einer schnell erfassbaren Form dar und kann deshalb zur Zusam¬ 
menfassung und Auswertung von Unterbereichen eines Wissensgebietes benutzt 
werden. Ein gutes Beispiel ist die auf den vorhergehenden Seiten immer wieder 
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erwähnte Rekonstruktion von Kernabläufen aus einer großen Zahl von Vorschrif¬ 
ten, die dasselbe Thema behandeln. Ab einer gewissen Anzahl von Vorschriften 
10?) lassen sich solche Synopsen nicht mehr mit vertretbarem Aufwand von 
Hand erstellen. Alignment und Strukturdiagramme wie in Abb. 4.2 bieten hier 
eine komfortable, automatisierte Lösung, die problemlos in andere Darstellungs¬ 
arten wie z.B. Tabellen transformiert werden könnte. Strukturdiagramme lassen 
sich weiterhin für die (Neu-)Edition der zugrundeliegenden Texte benutzen. Um 
die Qualität einer Lesart zu bewerten, sollte man den Inhalt der edierten Passage 
verstehen und die Parallelstellen in der restlichen Literatur kennen. Struktur¬ 
diagramme bilden Inhalt und Parallelen in einer übersichtlichen Form ab und 
erleichtern deshalb die Entscheidung für eine passende Lesart. So wäre z.B. in 
RArn, 6, 136 der von Ray gewählten Lesart sodhayitvä das im Apparat ([62, 93]) 
erwähnte sosayitvä vorzuziehen, da diese Lesart vom Ablauf einer homogenen 
Untergruppe der sattvapätana -Vorschriften für den vaikränta unterstützt wird. 
Ein weiteres Einsatzgebiet des Alignments ist die Datierung von Texten. In die 
Konstruktion eines Cluster-Dendrogramms fließen die paarweisen Ähnlichkeiten 
aller beteiligten Vorschriften ein. Unter gewissen mathematischen Voraussetzun¬ 
gen können diese Ähnlichkeiten als zeitliche Distanzen zwischen Vorschriften 
und schließlich auch zwischen Texten interpretiert werden. Dieser Ansatz, aus 
dem sich eine relative Chronologie der indischen Alchemie konstruieren lässt, 
wird in den Kapiteln 7 und 8 beschrieben. 
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Kapitel 5 


Textgruppierung mit 
Synonymlisten 


In den Kapiteln 3 und 4 wurden die digitale Datenbasis, das Sprachmodell und 
grundlegende rechnerische Operationen mit diesem Sprachmodell beschrieben. 
Die jetzt folgenden Kapitel untersuchen die Frage, wie sich einige der in Ka¬ 
pitel 2 skizzierten philologischen Probleme mit diesem Instrumentarium lösen 
lassen. Sie bilden damit den computerphilologischen Kern dieser Arbeit. Die Ka¬ 
pitel 5 und 6 sind der Textgruppierung gewidmet, worunter eine Strukturierung 
des alchemistischen Corpus ohne zeitliche Implikationen zu verstehen ist. In 5 
wird diese Strukturierung mithilfe tabellierter Informationen, in 6 mit Zitaten 
durchgeführt. Die Kapitel 7 und 8 stellen dagegen einen Algorithmus vor, der 
das Corpus in eine relative zeitliche Ordnung bringt. 

Synonymlisten 1 und Gruppendefinitionen (vargas) enthalten wertvolle Infor¬ 
mationen über die Ähnlichkeit von Texten. Diese Informationen wurden zwar 
besonders für die zeitliche Strukturierung der Nighantu-LitereLtui herangezogen 
(s. z.B. [75, viii-xxiii]). Meines Wissens wurde bisher aber noch kein mathe¬ 
matisches Modell entwickelt, mit dem solche Daten textabdeckend erfasst und 
philologisch ausgewertet werden können. Das aktuelle Kapitel beschreibt, wie 
solch eine Methode aus mathematisch-statistischen Gruppierungsverfahren ab¬ 
geleitet werden kann (5.1), wie ihre Resultate visualisiert werden können (5.2) 
und welche überlieferungsgeschichtlichen Ergebnisse sich mit dieser Methode für 
das alchemistische Corpus und einige assoziierte Texte gewinnen lassen (5.3). 

Die Datenerfassung ist der erste und aus mathematischer Sicht einfachste 
Schritt dieser Methode. Realienkundliche Speziallexika (Nighantus) und die 
alchemistischen Texte zählen häufig die Synonyme von Substanzen und die 
Bestandteile von Substanzgruppen ( varga ) auf. In die analysierten Sanskrit- 
Texte der SanskritTagger-Datenbank werden an diesen Stellen zweiwertige 
Gleichungen eingefügt, deren linke Seite den Namen der Hauptsubstanz bzw. 

1 Sofern im folgenden von „Synonymen“ die Rede ist, sind, falls nicht anders erwähnt, darin 
auch die varga -Beschreibungen eingeschlossen. 
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des vargas und deren rechte Seite das Synonym bzw. den Gruppenbestandteil 
verzeichnen. Ein Operator bestimmt das Verhältnis der beiden Terme. Wenn 
z.B. in RäjNigh, 13, 48 davon die Rede ist, dass manahsilä (Realgar) die 
Synonyme kunati und silä besitzt, werden diese beiden Aussagen in der Form 
HatSynonym(raana/is«Zä, kunati) und HatSynonym (manahsilä, silä) codiert. So¬ 
bald eine Text st eile vollständig erfasst ist, werden diese zweiwertigen Gleichun¬ 
gen in Synonymlisten umgewandelt (s. Abb. 5.1). 

Wie können diese Synonymlisten nun zur Gruppierung alchemistischer Tex¬ 
te verwendet werden? Betrachtet man Tabelle 5.1, in der einige der Synonyme 
von Rubin aufgeführt sind, fällt auf, dass z.B. ÄK und RäjNigh bei allen 
Synonymen übereinstimmen. Dagegen hat der KaiNigh, vom Namen mäni- 
kya abgesehen, keine Synonyme mit anderen Texten gemein. Aus dieser Vertei¬ 
lung der Synonyme lassen sich Ähnlichkeiten zwischen Texten berechnen. Dabei 
deuten zahlreiche Übereinstimmungen zwischen Synonymlisten auf eine hohe, 
wenige Übereinstimmungen auf eine niedrige punktuelle Ähnlichkeit zwischen 
zwei Texten. Aus diesen Ähnlichkeiten kann mit einem Cluster-Algorithmus ei¬ 
ne optimale Gruppierung der Texte hinsichtlich eines Merkmals wie z.B. der 
Synonyme von Rubin errechnet werden. Solch eine Gruppierung ist punktuell, 
da sie auf Grundlage einer einzigen Synonymliste eine Beziehung zwischen Tex¬ 
ten herstellt. Allerdings lässt sich aus vielen solcher punktuellen Gruppierungen 
in einem weiteren Schritt (Kapitel 5.3) eine kumulative Gesamtähnlichkeit zwi¬ 
schen Texten ableiten. Gruppierungen auf Grundlage einzelner Synonymlisten 
bilden also das Ausgangsmaterial für einen globalen Gruppierungsschritt. Das 
Verfahren ist ein Beispiel für eine philologische Ähnlichkeitshypothese (vgl. S. 
12). Seine Ergebnisse werden in Abschnitt 5.3 allerdings nicht zeitlich, sondern 
nur im Sinn von Schul- oder Lehrtraditionen interpretiert. 

Auf den folgenden Seiten werden zunächst Verfahren zur Cluster-Bildung 
erläutert. Aus verschiedenen Ansätzen wird ein Algorithmus zur effizienten 
Gruppierung von Texten aufgrund ihrer Synonymlisten abgeleitet. Abschnitt 5.3 
beschreibt dann die Interpretation akkumulierter lokaler Ähnlichkeiten. - Eine 
gute Einführung in das intensiv erforschte Thema der Clusterbildung bieten u.a. 
[38], [37], [6] und [85] (v.a. zu Kriteriumsfunktionen), auf deren Darstellungen 
ich mich teilweise beziehe. 


5.1 Berechnen einer Gruppierung 

Um ein mathematisches Verfahren auf philologische Daten anzuwenden, müssen 
diese Daten zuerst in eine geeignete Form transformiert werden. Bei Synonymen 
bietet es sich an, An- oder Abwesenheit eines Synonyms in jedem Text als Wert 
in einem Merkmalsvektor der Länge n aufzuzeichnen, der den jeweiligen Text 
charakterisiert, n bezeichnet die Gesamtzahl unterschiedlicher Synonyme, die 
in allen Synonymlisten eines Begriffs auftauchen. Symbolisiert man ein vorhan¬ 
denes Synonym mit einer 1 (= ja) und ein abwesendes mit einer 0 (= nein), 
ergibt sich für den ÄK ein Merkmalsvektor der Form Väk = {1,1,0,1,1,...}, 
der direkt aus der ersten Spalte von Tabelle 5.1 abgelesen werden kann. Diese 
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AK 

BhPr 

KaiNigh 

MPalNigh 

RajNigh 

SSDip 

kuruvinda 

• 




• 

• 

tarala 

• 




• 


mlagandhaka 






• 

padmaräga 

• 

• 


• 

• 

• 

mänikya 

• 

• 

• 

• 

• 

• 

rangamänikya 

• 




• 


ratna 

• 



• 

• 


ratnanäyaka 

• 




• 


ratnaräj 

• 




• 


raviratnaka 

• 




• 


rägadrs 

• 




• 


lohitaka 

• 

• 



• 


vasu 




• 



vasumani 



• 




sasyaka 



• 





Tabelle 5.1: Ausschnitt aus den Synonymlisten für den Rubin 


Merkmalsvektoren bilden die Grundlage für die Gruppierung der Texte. Da ein 
Merkmalsvektor mit n Merkmalen als Punkt in einem n-dimensionalen Raum 
interpretiert werden kann, wird im folgenden für diese Merkmalsvektoren auch 
der Begriff Datenpunkt gebraucht. Um auf Basis der Merkmalsvektoren Texte 
in Gruppen zusammenzufassen, muss der Begriff der Gruppe oder des Clusters 
präzisiert werden. Ein Cluster kann u.a. als eine Teilmenge der untersuchten 
Datenpunkte definiert werden, die möglichst ähnliche Datenpunkte enthält und 
deren Datenpunkte den Datenpunkten anderer Cluster möglichst unähnlich sind 
(vgl. [42, 1] und [37, 265ff.]). Schließt man statistische Ausreisser aus, ist die 
Vereinigungsmenge aller Cluster in den meisten Fällen mit dem gesamten Da¬ 
tenraum identisch ([6, 28]). Ein Cluster- oder Gruppierungsalgorithmus teilt 
also den Datenraum nach den Vorgaben maximaler Ähnlichkeit und maximaler 
Abdeckung allein auf Grundlage der ihm vorgelegten Datenpunkte in Cluster 
oder Gruppen auf. 

Diese Definition erfordert als nächstes die Festlegung eines Ähnlichkeitsma¬ 
ßes, mit dem die Ähnlichkeit von Datenpunkten und Clustern gemessen werden 
kann. Ähnlichkeitsmaße lassen sich unter anderem in Maße für Merkmalsvekto- 
ren mit intervallskalierten (metrischen) und für Vektoren mit nominalskalierten 
(kategorialen) Merkmalen unterteilen (s. z.B. [10, 18ff.]). Für intervallskalierte 
Merkmale lässt sich, salopp formuliert, ein sinnvolles Abstandsmaß definieren, 
aus dem ein Ähnlichkeitsmaß abgeleitet werden kann. Der Merkmalsvektor, der 
einen Quader beschreibt, kann z.B. die drei Kantenlängen „Breite“, „Länge“ 
und „Höhe“ des Quaders aufzeichnen. Unterscheiden sich zwei Quader in ihrem 
Merkmal „Höhe“, kann dieser Unterschied metrisch als Höhendifferenz gedeutet 
werden. Dagegen kann für nominalskalierte Merkmale kein Ähnlichkeitsmaß de¬ 
finiert werden, das auf einem metrischen Abstandsmaß basiert. Das nominalska- 
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lierte Merkmal „Aussehen“ kann z.B. in den Ausprägungen „schön“, „häßlich“ 
und „abstoßend“ auftreten. Diese Werte könnte man durch numerische Platz¬ 
halter ersetzen, z.B. „schön“ = 1, „häßlich“ = 2 usw. Trotzdem ergäbe eine 
Differenz von „häßlich“ und „schön“ (2 — 1 = 1) keinen Sinn, da das Ergebnis 
nicht numerisch interpretierbar ist („häßlich“ - „schön“ = „schön“?). Da für 
nominalskalierte Merkmale arithmetische Operationen nicht definiert sind (vgl. 
[10, 18]), lassen sich aus Vektoren mit solchen Merkmalen nicht ohne weiteres 
(s. S. 67) abgeleitete Vektoren wie Mittelwertsvektoren usw. bilden. Ähnlich- 
keitsmaße sind bei nominalskalierten Merkmalen zunächst nur für Paare von 
Quellvektoren definiert, was erheblichen Einfluss auf die Clusterbildung hat. 
Die Merkmale, mit denen die Synonymlisten codiert sind, sind eine Unterart 
der nominalskalierten Merkmale. Da jedes Merkmal nur die Ausprägungen 1 
= „ja“ oder 0 = „nein“ annehmen kann, handelt es sich um sogenannte binäre 
Merkmale. Anders als nominalskalierte Merkmale mit mehr als zwei Ausprägun¬ 
gen können Vektoren binärer Merkmale unter gewissen Einschränkungen mit 
metrischen Ahnlichkeitsmaßen gruppiert werden. 

Für den Vorgang der Clusterbildung existieren (neben vielen anderen Unter¬ 
scheidungsmöglichkeiten, s. [37, 274ff.]) zwei weitgehend entgegengesetzte An¬ 
sätze. Agglomerative Algorithmen, zu denen der beim Alignment verwendete 
UPGMA-Algorithmus gehört (vgl. S. 48), setzen am Anfang jeden Datenpunkt 
mit einem Cluster gleich und verschmelzen diese Cluster solange, bis ein Ab¬ 
bruchkriterium erfüllt ist. Partitionierende Algorithmen fassen dagegen die ge¬ 
samte Menge der Datenpunkte als initialen Cluster auf und versuchen, diesen 
so zu teilen, dass eine globale Güte- oder Kriteriumsfunktion maximiert 2 wird. 
Diejenige Aufteilung des Datenraums, die den maximalen Funktionswert die¬ 
ser Kriteriumsfunktion liefert, entspricht der endgültigen Gruppierung. Sowohl 
agglomerative als auch partitionierende Algorithmen können daher als Kombi¬ 
nation zweier voneinander unabhängiger Komponenten interpretiert werden. Sie 
bestehen aus einer zu maximierenden Kriteriums- oder Abbruchsfunktion und 
der Methodik, mit der diese Funktion maximiert wird (vgl. [85, 2] und [59, 2]). 

Wie läuft die Clusterbildung bei partitionierenden Algorithmen im Detail 
ab? Von grundlegender Bedeutung für den Verlauf der Gruppierung ist die Wahl 
eines geeigneten Ähnlichkeitsmaßes d x und der zugehörigen Kriteriumsfunktion 
D x . Die Form der Kriteriumsfunktion D x hängt vom Ähnlichkeitsmaß d x ab. Ist 
d x ein Ähnlichkeitsmaß für metrische Merkmale, können z.B. Mittelpunktsvek¬ 
toren möglicher Cluster in die Berechnung von D x einfließen. Bei einem Ähn¬ 
lichkeitsmaß für nominalskalierte Merkmale darf D x dagegen nur mit den Ähn¬ 
lichkeiten zwischen den Ausgangsvektoren operieren. Besonders häufig wird für 
metrische Merkmale die euklidische Distanz dE U zwischen zwei n-dimensionalen 
Vektoren Vi und Vj gebraucht. 3 Eine oft verwendete Kriteriumsfunktion De u 
beruht auf dieser euklidischen Distanz. Sie ist darauf ausgerichtet, die Summe 
der Abstände zwischen den Mittelpunktsvektoren pi der m Cluster Ci und den 

2 Die Maximierung einer Punktion kann durch einfache Umformungen in eine Minimierung 
überführt werden; genauso eine Minimierung in eine Maximierung. Im folgenden wird daher 
immer der Begriff „Maximierung“ verwendet, auch wenn eine Funktion minimiert werden soll. 

3 d E u{vi,Vj) = VELlf '““”!*) 2 
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zu Ci gehörigen Quellvektoren zu minimieren, was auf eine Minimierung der 
Varianz innerhalb der Cluster hinausläuft (vgl. [10, 574]): 

m 

D E u = ^2 ^2 ( dEu(.Vj,Pi )) 2 min. (5.1) 

i=i vjeCi 


Nehmen wir für einen Augenblick diese Kriteriumsfunktion als Vertreterin einer 
ganzen Klasse ähnlicher Funktionen ([85, 4ff.]). Was geschieht, wenn n Vektoren 
mit dieser Funktion in Klassen unterteilt werden sollen? Wenn jeder Vektor einer 
eigenen Klasse zugeordnet wird, ist Pi für jeden einelementigen Cluster Ci mit 
seinem einzigen Element identisch. Der Ausdruck d,E U {vj,Pi) ist danach für alle 
Cluster 0, und De u erreicht für die triviale Lösung mit einelementigen Clustern 
ein globales Minimum. Clusterbildungen, die auf Funktionen dieser Klasse be¬ 
ruhen, benötigen deshalb als zwingenden Parameter die Zahl k der gesuchten 
Cluster. Bei vielen Gruppierungsaufgaben kann dieses k a priori angegeben wer¬ 
den. Bei der Gruppierung von Texten ist die Zahl der Cluster aber nicht Teil 
der Aufgabenstellung, sondern der Lösung des Problems. Wüsste ich, wieviele 
Textgruppen existieren, müssten diese Zeilen gar nicht erst geschrieben werden. 
Partitionierende Standardverfahren lassen sich also nicht für die Textgruppie¬ 
rung verwenden. Wie in [21, 227] betont, liefern agglomerative Verfahren auch 
keine einfacheren Lösungen, da hier die Zahl der gebildeten Klassen über das 
Abbruchkriterium fest gelegt wird. Genau wie k lässt sich der Wert für solch ein 
Kriterium im vorliegenden Fall nicht im voraus bestimmen. 

Gesucht ist daher ein Algorithmus, der nicht nur Cluster, sondern auch ihre 
Anzahl selbstständig findet. Eine statistisch fundierte Lösung bietet AutoClass 
([18]), das aber vielleicht aufgrund der äußerst geringen Zahl an Datenpunkten 
(= Texten) für die Textgruppierung keine zufriedenstellenden Lösungen liefert. 
Einen anderen Lösungsansatz bieten dichtebasierte Algorithmen, die mit ei¬ 
ner modifizierten Clusterdefinition arbeiten. Mit [21, 227] lässt sich ein Cluster 
(nicht-formal) als ein Unterraum des Datenraums definieren, in dem die Dichte 
der Datenpunkte deutlich höher ist als in Regionen, die nicht als Cluster mar¬ 
kiert sind. Außerdem ist die Dichte der Datenpunkte in Regionen außerhalb 
von Clustern immer niedriger als in jedem der Cluster. Aufgabe des Algorith¬ 
mus ist es, Bereiche des Datenraums zu finden, die sich durch eine hohe Dichte 
von Datenpunkten auszeichnen, und die Datenpunkte in diesen Bereichen zu 
Gruppen zusammenzufassen. Einen auch für kleine Datenmengen praktikablen 
Ansatz bietet der mit Verknüpfungen operierende Algorithmus ROCK ([29]), der 
für Merkmalsvektoren mit kategorialen Attributen entworfen wurde. Als nicht¬ 
metrisches Ahnlichkeitsmaß benutzt dieser Algorithmus den mengentheoretisch 
motivierten Jaccard-Koeffizienten dj acc , der für die Merkmalsvektoren Vi und 
Vj als 


djacc — 


\vj n Vj | 
| Vi U Vj I 


(5.2) 


definiert ist. Im Zähler des Bruchs wird der Umfang der Schnittmenge von Vi und 
Vj berechnet, d.h., es werden die Positionen gezählt, an denen Vi und Vj einen 
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Abbildung 5.1: Agglomerative Gruppenbildung mit distanz- und nachbarschafts¬ 
basierten Algorithmen - Links: Ausgangsmenge. Die Nachbarn von Vi und Vj 
sind jeweils fett umrahmt. Die gestrichelten Kreise mit Radius 0i markieren die 
Nachbarschaft auf Basis von d x . - Mitte: Ein lokal operierendes Verfahren wie 
single link verschmilzt die Gruppen wegen d x (vi,Vj) < Oi zu einem Cluster. - 
Rechts: Da Vi und Vj nur sich selbst als gemeinsame Nachbarn besitzen, trennt 
ROCK die Daten in zwei Cluster. 


Wert ungleich 0 zeigen. Dagegen steht im Nenner die Zahl der Positionen, an 
denen Vi oder vj einen Wert ungleich 0 haben. Wegen \vif]Vj \ < \viUvj\ ist dj acc 
auf das Intervall [0,1] skaliert und stellt so ein aussagekräftiges Ahnlichkeitsmaß 
für binäre Merkmalsvektoren dar. Kernpunkt von ROCK sind die Begriffe Nach¬ 
bar und Verbindung. Zwei Datenpunkte V{ und Vj sind Nachbarn, wenn dj acc 
einen Schwellenwert Oi überschreitet. Die Anzahl der Verbindungen zwischen 
zwei Datenpunkten ist gleich der Anzahl ihrer gemeinsamen Nachbarn. Über¬ 
schreitet die Zahl der Verbindungen oder gemeinsamen Nachbarn einen zweiten 
Schwellenwert © 2 , gehören Vi und Vj zu demselben Cluster. Abbildung 5.1 illus¬ 
triert den Vorteil dieser Methode gegenüber anderen Ansätzen. Der Abstand d x 
zwischen Vi und Vj ist sehr klein. Eine Methode wie das single link -Verfahren 
(s. z.B. [6, 8ff.]) würde wegen der Nähe dieser Datenpunkte die beiden klar 
getrennten Gruppen der Rauten und Kreise zu einem Cluster zusammenfas¬ 
sen. Das verbindungsbasierte Verfahren betrachtet dagegen die Datenpunkte, 
die Vi und Vj benachbart sind. Weil zwischen den Mengen der Nachbarn keine 
Übereinstimmungen auftreten, werden die beiden Gruppen nicht miteinander 
verschmolzen. 

Durch Einsatz dieses Nachbarschaftskonzepts, das auch als Konstruktion 
eines knn -Graphen interpretiert werden kann ([42, 6ff.]), lassen sich stark ver¬ 
bundene Datenpunkte finden. Wählt man einen genügend hohen Schwellenwert 
©i, gehören über gemeinsame Nachbarn stark verbundene Datenpunkte mit 
hoher Wahrscheinlichkeit zu einem Cluster. Der erste Schritt dieses Algorith¬ 
mus kann also benutzt werden, um diejenigen Datenpunkte zu markieren, die 
auf jeden Fall zusammengehören. Die Suche nach einer optimalen Gruppierung 
lässt sich auf diese Weise eingrenzen. Für den Rest der vorliegenden Aufgabe ist 
ROCK nicht geeignet, da kein Abbruchkriterium vorgeschlagen wird und somit 








5.1. GRUPPIERUNG 


61 


eine automatische Bestimmung der Klassenzahl nicht möglich ist. Das Nachbar¬ 
schaftskonzept wird daher nur für die Aufdeckung besonders stark verbundener 
Gruppen benutzt. Schwächer verbundene Gruppen müssen mit anderen Metho¬ 
den gefunden werden. 

Die Konstruktion stark verbundener Gruppen soll an einem Beispiel demon¬ 
striert werden. Ausgangspunkt sind die Synonymlisten des Rubins (s. Tab. 5.1). 
Als erstes wird die paarweise Ähnlichkeit dj acc der sechs Textvektoren berechnet 
und in der symmetrischen 6 x 6-Ähnlichkeitsmatrix Msim gespeichert (s. Abb. 
5.2, links). Mit einem Schwellenwert ©i = 0.7 lässt sich Msim in eine Nachbar¬ 
schaftsmatrix Mn i überführen. Der Wert 1 in einer Zelle (i, j) zeigt bei dieser 
Matrix an, dass die Merkmalsvektoren Vi und Vj unter dem vorliegenden Mo¬ 
dell (0i = 0.7) benachbart sind (s. Abb. 5.2, Mitte). Um zu berechnen, wieviele 
gemeinsame Nachbarn Vi und Vj besitzen, wird jede Spalte i von Mn i mit jeder 
ihrer Zeilen j multipliziert (Skalarprodukt 4 ). Unter Ausschluss der Diagonalen 
ergibt sich die Nachbarschaftsmatrix Mjv 2 (s. Abb. 5.2, rechts). Diese Matrix 
könnte als Graph interpretiert und mit einem Partitionierungsalgorithmus in 
Cluster aufgeteilt werden (s. z.B. Abschnitt 6.2, S. 86ff.), was aber keine beson¬ 
ders spannenden Ergebnisse liefern würde. Die Texte A (ÄK) und E (RäjNigh) 
gehören in einen Cluster, über die übrigen Texte lässt sich nichts aussagen. Zwar 
könnte man mit einem niedrigeren Schwellenwert Oi dichter gefüllte Matrizen 
Mn 1 und Mn 2 erzeugen, aus denen sich interessantere Textgruppierungen ab¬ 
lesen ließen. Allerdings käme es dann auf die richtige Wahl des Parameters ©1 
an, der das Abbruchkriterium des Algorithmus darstellt. Der hier gewählte hohe 
Wert von @1 garantiert, dass die verbundenen Texte mit hoher Sicherheit zu 
einem Cluster gehören. Diese Vorstrukturierung des Datenraums wird als positi¬ 
ves einschränkendes Kriterium B in die nachfolgende Gruppenbildung integriert 
(S. 64). Die Nachbarschaftsmatrix Mn 2 liefert also keine vollständige Gruppie¬ 
rung, sondern nur eine einschränkende Bedingung: Text A und E müssen sich im 
gleichen Cluster befinden. Analog dazu dürfen Textpaare, deren Ähnlichkeit in 
Msim einen sehr niedrigen Schwellenwert ©3 unterschreitet, nicht zu demselben 
Cluster gehören. 

Wie lassen sich die restlichen, schwächer verbundenen Datenpunkte auf Clus¬ 
ter verteilen? Wendet man eine der oben besprochenen Kriteriumsfunktionen 
auf den vorstrukturierten Datenraum an, werden zwar die stark verbundenen 
Datenpunkte in gemeinsame Cluster eingeordnet. Datenpunkte, für die keine 
einschränkenden Nebenbedingungen vorliegen, werden aber wieder jeweils in 
einen eigenen Cluster gestellt. Damit tritt dasselbe mathematische Verhalten 
auf, das schon auf S. 59 beschrieben wurde. Um dieses unerwünschte Verhal¬ 
ten zu unterdrücken, werden einelementige Cluster mit einem Strafwert belegt. 
Cluster-Verfahren können als Methoden interpretiert werden, aus einer Daten¬ 
basis generelle Konzepte (hier: Text gruppen) im Rahmen eines einschränkenden 
Modells, das in der Kriteriumsfunktion beschrieben wird, zu extrahieren. Lie¬ 
fert ein Clusteralgorithmus nur einelementige Mengen, hat keine Generalisierung 

4 Das Skalarprodukt ist definiert als Vi • Vj := |vd • \vj | • coso: = v^. • Vj^. Wenn der 

Winkel o: zwischen den Vektoren 90 Grad beträgt, d.h. die Vektoren orthogonal sind, wird ihr 
Skalarprodukt zu 0. 
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Abbildung 5.2: Umwandlung einer Ähnlichkeits- in eine Nachbarschaftsmatrix 
am Beispiel der Synonymlisten für den Rubin. - Links: Ähnlichkeitsmatrix 
MsiMi Mitte: Nachbarschaftsmatrix Mn i, rechts: Nachbarschaftsmatrix Mn 2 - 


stattgefunden. Der Strafwert ist darauf ausgelegt, solche nicht generalisierenden 
Lösungen zu unterdrücken. Ist /iq der Mittelwert der Ähnlichkeitswerte aller Da¬ 
tenpunkte , 5 wird der Strafwert als 7 = ^ fest gelegt. Werden die Datenpunkte 
Vi und Vj jeweils einelementigen Clustern zugeordnet, tragen sie 27 = hg zum 
Gesamtergebnis bei. Werden sie dagegen einem Cluster zugeordnet, tragen sie 
d x (vi,Vj) (hier: dj acc (vi,Vj)) zum Gesamtergebnis bei. Liegt dieses d x über dem 
Mittelwert der Ähnlichkeitswerte, sind sich Vi und Vj also überdurchschnittlich 
ähnlich, werden sie einem Cluster zugewiesen. Die modifizierte Ähnlichkeits¬ 
funktion d! x berechnet sich also auf folgende Weise: 


f Vf falls \Ci\ = 1 

( d x falls \Ci\ > 1. 


(5.3) 


Die zugehörige Kriteriumsfunktion D' x lautet 


d '* = Y 


1 

~Ci 


Y d 'x(Vj,V k ) 

Vj,Vk€Ci 


min. 


(5.4) 


Zur Umwandlung des Kovarianzkriteriums in die Form D x s.a. [85, 5]. 

Nachdem mit D x eine Kriteriumsfunktion und zusätzlich eine Strategie zur 
automatischen Bestimmung der Klassenzahl gefunden wurde, muss der Wert 
dieser Kriteriumsfunktion unter den Nebenbedingungen gemäß Matrix Mn 2 ma¬ 
ximiert werden (s. S. 61). Die Maximierung der Kriteriumsfunktion gehört zum 
Bereich der Optimierungsstrategien, die ähnlich intensiv wie die Clusteralgorith¬ 
men erforscht werden. Im vorliegenden Fall lässt sich die Lösung des Problems 
gut veranschaulichen. Schreibt man die Namen aller beteiligten Texte geord¬ 
net in eine Zeile, lässt sich eine mögliche Aufteilung des Datenraums durch die 


5 Das heißt ß G = ± -i+i dx(vi,Vj) mit N — n ^ n 2 ^ • ßG wird nur für die Hälfte 

der Ähnlichkeitsmatrix unter Ausschluss der Selbstähnlichkeit gebildet. 
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Clusternummern darstellen, die unter die Textnamen geschrieben werden: 



A B C D 

Wert der Kriteriumsfunktion 

Lösung 1 

112 3 

_ d x (A, B) iia hg 

IJx 2 2 ' 2 



Cluster 1: A, B Cluster 2: C Cluster 3: D 

Lösung i 

12 11 

d x (A,C) + d x (A,D) + d x {C,D) na 

x 3 + 2 



Cluster 1: A, C, D Cluster 2: B 


Gesucht ist eine Konfiguration von ganzzahligen Clusternummern, mit der die 
Kriteriumsfunktion maximiert wird. Wegen dieser Beschränkung auf ganzzahli¬ 
ge Lösungen scheiden Maximierungsstrategien aus, die auf Prinzipien der Diffe¬ 
rentialrechnung beruhen. In den meisten Fällen scheidet auch das einfache Aus¬ 
probieren möglicher Lösungen aus, da ihre Anzahl exponentiell mit der Zahl der 
Datenpunkte anwächst ( curse of dimensionality) . Weil im vorliegenden Fall die 
Datenbasis aber immer weniger als 20 Datenpunkte (die Merkmalsvektoren der 
Texte) umfasst, ist eine Optimierung durch Ausprobieren aller Fälle und damit 
die Suche nach einem globalen Optimum möglich. Allerdings kann auch hier 
eine geeignete Suchstrategie die Laufzeit deutlich verkürzen. 

Zu Beginn der Optimierung wird ein im folgenden Clustervektor C genann¬ 
ter Vektor der Länge n eingerichtet, der für jeden der n Merkmalsvektoren die 
Nummer des zugeordneten Clusters speichert. Die Maximalzahl n max möglicher 
Cluster ist gleich n, wenn jeder Merkmalsvektor einem eigenen, einelementigen 
Cluster zugeordnet wird. Ohne weitere Bedingungen hat der vollständige Such¬ 
raum für drei Merkmalsvektoren die in Abb. 5.3 links dargestellte Form. Jeder 
der drei Merkmalsvektoren A, B und C kann also einem der drei Cluster 1, 
2 oder 3 zugeordnet werden. Da die Numerierung der Cluster nur die Vertei¬ 
lung der Merkmalsvektoren in Gruppen verdeutlicht, lässt sich der Suchraum 
aufgrund von Symmetrieüberlegungen eingrenzen. So ist die Gruppierung 123 
inhaltlich mit 321 identisch; genauso 233 mit 122. Allgemein lässt sich ein po¬ 
sitionsabhängiges Maximum max* der Clusternummer für jede Position von C 
angeben. Der Suchraum wird damit auf die in Abb. 5.3 in der Mitte dargestellte 
Form reduziert. Statt 3 ■ 3 ■ 3 = 27 müssen mit dem positionsabhängigen Maxi¬ 
mum nur noch 1-2-3 = 6 Gruppierungen untersucht werden. n max kann mithilfe 
der Zusatzbedingungen, die die zwingende Einordnung von Texten in einen ge¬ 
meinsamen Cluster beschreiben (s. S. 61), noch weiter reduziert werden, da sich 
für jede dieser Zusatzbedingungen n max um den Wert 1 verringert. Müssen sich 
z.B. A und C in demselben Cluster befinden, wird der Suchraum weiter zu der 
Form verkleinert, die in Abb. 5.3 rechts dargestellt ist. Anstelle von 6 müssen 
also nur noch 1 • 2 • 1 = 2 Möglichkeiten untersucht werden. 

Um im derart reduzierten Suchraum möglichst effektiv die optimale Kon¬ 
figuration zu finden, wird ein brauch and bound- Verfahren benutzt. Bei dieser 
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3 3 3 
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1(= A!) 


Abbildung 5.3: Einschränkung des ursprünglichen Suchraums (links; 27 Möglich¬ 
keiten) durch Symmetrieüberlegungen (Mitte; 6 Möglichkeiten) und Zusatzbe¬ 
dingungen (rechts; 2 Möglichkeiten) 


Strategie werden Probleme mit ganzzahligen Lösungen als Baumstruktur inter¬ 
pretiert. Durch geeignete Einschränkungen und eine optimistische Schätzfunk¬ 
tion (bounding function) für Teilprobleme wird versucht, möglichst viele Äste 
( brauch) dieses Baums frühzeitig auszuschließen und den Suchraum auf diese 
Weise einzuschränken. Der brauch and bound-Ahleaii (s. Abb. 5.4) startet, in¬ 
dem die erste Position von C ( p cur = 1) auf den ersten ihrer möglichen Werte 
(a cur = 1) gesetzt wird. Die restlichen Werte von C sind in diesem Moment nicht 
bestimmt, so dass C für drei Texte die Form lxx besitzt. C wird jetzt auf das 
einschränkende Kriterium A untersucht. Wenn a max die größte Clusternummer 
bezeichnet, die beim Durchmustern von C von Position 1 bis pi gefunden wurde, 
und C an der Position pi mit 1 < Pi < p CU r eine Clusternummer a* aufweist, für 
die — a max > 1 gilt, muss C nicht weiter nach rechts aufgelöst werden. Der 
aktuelle Zweig wird damit ausgeschlossen. Besitzt C z.B. die Form 1124:xxxx, 
gilt bei Untersuchung von Position 4: a max = 2 (an Position 3), a* = a± = 4, 
4 — 2 > 1. Der Zweig xxxx kann damit ausgeschlossen werden, da z.B. eine 
Lösung 112433a:a: auf die Form 112344a:a: zurückgeführt werden kann, die schon 
in einem vorhergehenden Schritt untersucht wurde. 

Besteht C die Untersuchung auf Kriterium A, wird die Gültigkeit der positi¬ 
ven und negativen Einschränkungen, die mit dem ersten Teil von ROCK berechnet 
wurden (s. S. 61), bis zu p cur untersucht (Kriterium B). Erfüllt C bis zu p cur 
nicht sämtliche positiven und negativen Einschränkungen, wird der Ast abge¬ 
schnitten. Müssen z.B. die Texte an Position 1 und 4 in demselben Cluster sein, 
wird die Bearbeitung von 1232xxx abgebrochen, da a\ = 1 ^ 04 = 2. Nach 
Erfüllung der Kriterien A und B teilt sich der Ablauf in zwei Zweige: 

• p cur = n : Falls C bis nach rechts durchlaufen worden ist, wird D' x für 
die aktuelle Konstellation berechnet. Ist der Wert von D' x kleiner als 
der kleinste bisher gefundene Wert, wird die aktuelle Konstellation als 
vorläufige Lösung des Clusterproblems gespeichert. 

• Pcur < n '- Falls der Wert der bounding function (BF) unter dem globalen 

Minimum liegt, ruft der Algorithmus sich selbst rekursiv auf und rückt 
dabei eine Position nach rechts ( p CU r Pcur + 1). Der Wert von BF 

für C ergibt sich als Summe der zwei Terme D' <cur und d' r . (d.h. 
D'<cur für pi = Pcur) ist eine Weiterentwicklung der Kriteriumsfunktion 
D x (Gleichung 5.4) für die Positionen, die kleiner oder gleich pi sind. Wenn 
9 min den Quotienten aus dem kleinsten Wert aus Ms im , der größer als 0 
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ist, geteilt durch die maximale Klassenzahl bezeichnet, errechnet sich die 
Ähnlichkeitsfunktion (Gleichung 5.3) für einen Cluster Cj als 



falls \Cj\ = 1 
falls \Cj\ > 1 


(5.5) 


D^i wird dann wie in Gleichung 5.4 aus den Werten der Ähnlichkeitsfunk¬ 
tion für alle Cluster berechnet, r bezeichnet die Anzahl der Positionen, die 
rechts von p cur stehen und noch unbestimmt sind. d' r ist die Summe der 
r kleinsten Werte aus Msim , geteilt durch r. Für die noch unbestimmten 
Positionen stellt d' r damit eine optimistische Schätzfunktion dar. 

Die Ausführungszeit des Algorithmus liegt selbst für die umfangreichsten 
Probleme (z.B. die Synonymlisten von Quecksilber) weit unter einer Sekun¬ 
de, würde für größere Grundmengen aber schnell nicht mehr akzeptabel wer¬ 
den. In solchen Fällen müsste eine bessere bounding function oder ein nicht¬ 
deterministisches Verfahren gewählt werden. 

5.2 Grafische Darstellung der Ergebnisse 

Sobald bei der Gruppenbildung mehr als zwei Cluster gefunden werden, er¬ 
leichtert die grafische Darstellung dieser Verteilung ihr Verständnis erheblich. 
Ähnlich wie bei den Alignment-Diagrammen (vgl. Abb. 4.2 auf S. 45) ist auch 
in diesem Fall die Visualisierung keine müßige Spielerei. Sie eröffnet vielmehr 
in vielen Fällen eine klare und sofort verständliche Perspektive auf Überliefe¬ 
rungsprobleme, die in Text form nur mühsam darzustellen und nachzuvollziehen 
sind. Das folgende Kapitel soll auch Anregungen für Visualisierungsverfahren 
bei anderen philologischen Problemen liefern und ist daher etwas ausführlicher 
geraten. 

Wie kann eine Clusterlösung in zwei Dimensionen dargestellt werden? Je¬ 
der der m gefundenen Cluster Ci wird durch m — 1 Ähnlichkeitswerte zu den 
restlichen Clustern charakterisiert. Die grafische Darstellung der Clusterbildung 
versucht, diese Ähnlichkeitswerte so getreu wie möglich in Entfernungen in der 
zweidimensionalen Zeichenebene umzuwandeln. Wenn also z.B. die Cluster Ci 
und Cj eine Ähnlichkeit öij = 0.25 besitzen, sollte ihre Entfernung dE U in der 
Zeichenebene ebenfalls 0.25 Einheiten betragen. Allgemein handelt es sich um 
das Problem, einen m-dimensionalen Raum so in die zweidimensionale Zeichen¬ 
ebene abzubilden, dass die Entfernungen in der Zeichenebene die Entfernungen 
im m-dimensionalen Raum möglichst getreu wiedergeben. Das Verfahren zerfällt 
in zwei Schritte. Im ersten Schritt müssen die Ähnlichkeiten zwischen den Clu¬ 
stern bestimmt werden, da bisher nur die Ähnlichkeiten zwischen den Daten¬ 
punkten bekannt sind. Im zweiten Schritt muss aus diesen Ähnlichkeitswerten 
eine zweidimensionale Darstellung berechnet werden. 

Das erste Teilproblem lässt sich einfach lösen. Der zum Cluster Ci gehöri¬ 
ge Mittelpunktsvektor rhi kann entweder als arithmetisches Mittel 6 aller zu 
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Abbildung 5.4: Flussdiagramm: Clusterbildung bei Synonymlisten - rnaxy ma¬ 
ximal erlaubte Clusternummer an pt , BF: bounding function 

























5.2. DARSTELLUNG 


67 


Ci gehörigen Datenpunkte (Quellvektoren) oder mit einer mengentheoretischen 
Operation gebildet werden. Die Quellvektoren, aus denen die Cluster gebildet 
wurden, bestehen aus binären und damit kategorialen Merkmalen (vgl. S. 58). 
Die räumliche Interpretation kann bei solchen Daten zu groben Verzerrungen 
der ihnen inhärenten Struktur führen (vgl. [29, 347]). Diese Einschätzung wird 
durch die generell schlechteren Visualisierungsergebnisse unterstrichen, die rein 
geometrische Verfahren wie z.B. FastMap liefern. 7 Abhilfe bieten hier Mengen¬ 
operationen. Ein Mittelpunktsvektor kann dabei als Schnittmenge oder als Ver¬ 
einigungsmenge aller zu einem Cluster gehörigen Vektoren interpretiert werden. 
Bei der Bildung einer Vereinigungsmenge steht in fhi an denjenigen Positionen 
j eine 1, an denen mindestens einer der zum Cluster Ci gehörigen Quellvek¬ 
toren eine 1 zeigt; bei der Bildung einer Schnittmenge nur an den Positionen, 
an denen alle zum Cluster gehörigen Quellvektoren eine 1 zeigen. Vereinigungs¬ 
und Schnittmengenbildung tendieren dazu, die Ähnlichkeit zwischen Elemen¬ 
ten eines Clusters über- bzw. unterzubewerten, was zu einem deutlichen In¬ 
formationsverlust bei der Berechnung des Mittelpunktsvektors führt. Um den 
Informationsverlust möglichst gering zu halten, wurde deshalb folgende Stra¬ 
tegie gewählt: fhi zeigt bei einem Cluster Ci an Position j den Wert 1, wenn 
mindestens d — Elemente des Clusters an dieser Stelle den Wert 1 besit¬ 

zen, andernfalls den Wert 0. Diese Vorschrift betont leicht die Bedeutung von 
positiven Werten in den Quellvektoren. 

Der zweite Teil des Problems, die Umwandlung der m-dimensionalen binären 
Mittelpunktsvektoren in zweidimensionale räumliche Werte, wird wegen seiner 
praktischen Bedeutung bei der Visualisierung komplexer Datenmengen seit lan¬ 
gem erforscht (für eine Übersicht s. z.B. [53]). Wie bei ähnlichen Optimierungs¬ 
verfahren existiert noch keine generell anwendbare Problemlösung. Das Verfah¬ 
ren muss abhängig von den Vorgaben des Einzelfalls gewählt und teilweise an 
seine speziellen Umstände angepasst werden. Auf den folgenden Seiten werden 
zwei Ansätze zur Dimensionsreduzierung skizziert. Dabei handelt es sich um 
die Hauptkomponentenanalyse (principal component analysis , PCA; 5.2.1) und 
Verfahren, die auf der Minimierung einer Stress-Funktion beruhen (5.2.2). Die 
Effektivität der Verfahren wird mit zwei Methoden verglichen. Numerisch kann 
die Güte verschiedener grafischer Darstellungen derselben Cluster-Konfiguration 
mit einem Maß S E , einer Variante der Stress-Funktion (vgl. S. 69) berechnet 
werden: 


S E = 


£ 


7=i Ejlmfey-d*»«) 3 
£,=1 ££=*+!<£« 


(5.6) 


Dabei wird der sogenannte raw stress YliL i YlJLi+ii^xij — d Eu ij) 2 , der eine An¬ 
wendung der Methode der kleinsten Quadrate auf das vorliegende geometrische 
Minimierungsproblem ist, durch die Summe der quadrierten Quell-Distanzwerte 
geteilt. Grafisch kann die Güte einer Dimensionsreduzierung durch sogenann¬ 
te Shepard-Diagramme veranschaulicht werden. Für jedes Vektorenpaar wird 


7 Der Fast Map-Algorithmus wurde nach der Beschreibung in [23] implementiert, konnte 
aber keine überzeugenden Ergebnisse produzieren, so dass ich von einer Besprechung dieses 
Verfahrens absehe. 
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Abbildung 5.5: Shepard-Diagramme für zwei Methoden der Dimensionsredu¬ 
zierung - Links: Eine gute Lösung, die Datenpunkte sind relativ nahe an der 
Diagonalen gelagert. - Rechts: Schlechte Lösung, die Datenpunkte bilden eine 
Wolke ohne erkennbare Tendenz. 


hier die räumliche Distanz auf der x-Achse gegen die Ähnlichkeit 8 auf der y- 
Achse aufgetragen. Je näher sich die x-y-Paare um die Diagonale y — x scharen, 
desto höher ist die Qualität der Dimensionsreduzierung. Bei einer optimalen 
Dimensionsreduzierung entspricht die geometrische Distanz x exakt dem Ähn¬ 
lichkeitswert y, wodurch eine perfekte Diagonale entstünde. Abbildung 5.5 zeigt 
eine gute (links) und eine schlechte (rechts) Dimensionsreduzierung am Beispiel 
der Synonyme von Quecksilber. 

5.2.1 Hauptkomponentenanalyse 

Die Hauptkomponentenanalyse (principal component analysis, PCA) ist eine 
Variante der Faktorenanalyse, die Variablen aufgrund ihrer Korrelation in von¬ 
einander unabhängige Gruppen einordnet ([10, 511ff.]). Ein Faktor ist eine 
künstliche Variable, die mit den gemessenen Variablen möglichst stark korreliert 
ist. Wird der Faktor aus den Variablen herausgerechnet, ergeben sich meistens 
Korrelationsreste. Diese Reste deuten auf weitere, nicht durch den herausge¬ 
rechneten Faktor erklärbare Zusammenhänge zwischen den Variablen hin. Auf 
Basis der Korrelationsreste wird der zweite, wieder maximal korrelierte Fak¬ 
tor bestimmt und aus den Variablen herausgerechnet. Durch Wiederholung des 
Verfahrens ergibt sich eine Menge voneinander unabhängiger Faktoren. Diese 
Faktoren erklären Korrelationen zwischen den Variablen, im vorliegenden Fall 
den Synonymen von Substanznamen (nicht: zwischen den Textvektoren!). Sie 

8 Genauer: Die in ein Distanzmaß im Intervall [0,1] transformierte Ähnlichkeit, d.h. eigent¬ 
lich 1 — d x . 
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sind inhaltlich nicht direkt mit den ursprünglichen Variablen verknüpft. Geome¬ 
trisch kann die PCA als varianzmaximierende orthogonale Rotationstransforma¬ 
tion interpretiert werden ([10, 518]). Merkmalsvektoren mit n Merkmalen oder 
Variablen lassen sich räumlich als Punkte in einem n-dimensionalen rechtwink¬ 
ligen Koordinatensystem deuten. Bei der PCA wird dieses Koordinatensystem so 
gedreht, dass die Projektionen der Datenpunkte entlang der gedrehten Achsen 
eine maximale Varianz besitzen und gleichzeitig die Achsen nicht mehr mit¬ 
einander korreliert sind. Sobald sich eine der n Achsen in solch einer Position 
befindet, wird sie als erster Faktor „fixiert“. Der Vorgang wird bei den übrigen 
n — 2 Achsen wiederholt. Die letzte Achse lässt sich nicht mehr frei bewegen. 

Zwei Eigenschaften der PCA machen das Verfahren geeignet zur Visualisie¬ 
rung von Daten. Als erstes lässt sich eine Rangfolge unter den Faktoren aufstel¬ 
len, die den neuen Koordinatenachsen entsprechen. Der erste Faktor erklärt den 
größten Teil der Gesamtvarianz, der zweite Faktor den zweitgrößten Teil usw. 
Sind die Ausgangsdaten stark korreliert, können große Teile der Gesamtvarianz 
mit sehr wenigen Faktoren erklärt werden. Anders ausgedrückt: Da die Faktoren 
Achsen in einem Koordinatensystem darstellen, kann der gesamte Datensatz un¬ 
ter geringem Informationsverlust mit sehr viel weniger als den ursprünglichen n 
Achsen und damit in einem niedrigdimensionalen Koordinatensystem abgebildet 
werden. Ob die PCA erfolgreich zur Dimensionsreduzierung bei Synonymlisten 
benutzt werden kann, hängt also von der Korrelation der Synonyme untereinan¬ 
der ab. Als zweites stehen bei vielen Versionen der PCA die resultierenden Achsen 
senkrecht aufeinander. Wählt man in solch einer Konstellation nur die beiden 
größten Faktoren, lassen sich mit ihrer Hilfe die hochdimensionalen Ausgangs¬ 
daten in ein zweidimensionales rechtwinkliges Koordinatensystem projizieren. 


5.2.2 Minimierung einer Stress-Funktion 

Während die Dimensionsreduzierung nur ein kleiner Einsatzbereich der PCA ist, 
wurden Methoden der mehrdimensionalen Skalierung (multidimensional scaling , 
MDS) speziell für die anschauliche Darstellung hochdimensionaler Datenräume 
entwickelt. Kernidee dieser Gruppe von Algorithmen ist die Minimierung der 
Differenz zwischen der ursprünglichen Ahnlichkeits- bzw. Distanzmatrix und 
einer gleichgroßen Matrix von Distanzen im zweidimensionalen Raum. Pp ist 
die Menge der Datenpunkte (= Mittelpunktsvektoren) und P 2 dim die Menge der 
gesuchten Punkte in einem zweidimensionalen kartesischen Koordinatensystem. 
p bezeichnet einen Datenpunkt und q sein Abbild in der Koordinatenebene. Pp 
soll jetzt so auf P^dim abgebildet werden, dass die Distanz zwischen allen Paaren 
von Datenpunkten pi und pj möglichst identisch ist mit dem jeweiligen Abstand 
ihrer Abbilder qi und qj in der zweidimensionalen Ebene. 

Die meisten MDS-Algorithmen basieren auf der Minimierung einer Fehler¬ 
funktion, die häufig als Stress-Funktion bezeichnet wird. Wenn Sij = 1 — d X ij 
das in ein Distanzmaß transformierte Ahnlichkeitsmaß zwischen pi und pj und 
dEu(qiiQj) die Distanz zwischen den Abbildungen von pi und pj bezeichnen, 
lässt sich diese Stress-Funktion für n Datenpunkte in der folgenden Form de- 
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finieren ([53, 31ff.]): 


S(A) 


ELi E"= i+ i w a • ißa ~ <Wg., q ,)) 2 

F n 


(5.7) 


Dabei ist Wij ein Gewichtungsfaktor für die einzelnen Summanden, der im ein¬ 
fachsten, im folgenden als Gradient bezeichneten Ansatz den konstanten Wert 
1 besitzt, während er im sogenannten Sammon-Mapping (s. S. 73) auf den Wert 
j- gesetzt wird. F n skaliert den aufsummierten Stress-Wert und wird bei 

Gradient auf Y^i=i X!j=i+i ^ijt bei Sammon auf Y^i=i X]y=i+i ^ij gesetzt. Die 
auf der Stress-Funktion basierenden Verfahren unterscheiden sich v.a. durch 
die Art, wie die nicht lineare Differenzfunktion minimiert wird. Im folgenden 
werden ein Gradientenabstiegsverfahren und Sammons Ansatz kurz beleuchtet. 


Minimierung durch das Gradientenabstiegsverfahren 

Ein einfacher Ansatz, um nichtlineare Funktionen wie die Stress-Funktion 
zu minimieren, ist das sogenannte Gradientenabstiegsverfahren (GAV, Metho¬ 
de Gradient). Das Verfahren versucht, eine Funktion zu minimieren, indem es 
sich von einem gegebenen Punkt A aus mit einer bestimmten Schrittweite A in 
diejenige Richtung fortbewegt, die dem Gradienten der Funktion in A entgegen¬ 
gesetzt ist. Dafür wird zuerst ein Startpunkt Ao gewählt, der möglichst nahe 
am Minimum liegen sollte. Für diesen Punkt wird der Gradient berechnet. Mit 
der Schrittweite A bewegt man sich jetzt entgegen der Richtung des Gradien¬ 
ten weiter. Man gelangt zur Konfiguration Ai usw. Dieses iterative Verfahren 
zerfällt in folgende Schritte: 

1. Erstellen der Startkonfiguration Eine Startkonfiguration Ao wird ent¬ 
weder zufällig oder aufgrund von Vorwissen fest gelegt. - Ao ist ein Vektor 
der Länge 2 • n, der an Position 2i — 1 die x- und an Position 2 i die y- 
Koordinate des Abbildungspunkts qi speichert. Die Wahl einer möglichst 
guten Startkonfiguration Ao ist eine der wichtigsten Voraussetzungen für 
den Erfolg des GAV. Da hochdimensionale nicht lineare Funktionen häufig 
eine große Zahl lokaler Minima besitzen und das Verhalten eines GAVs von 
der unmittelbaren Nachbarschaft der aktuellen Konfiguration bestimmt 
wird, besteht immer die Gefahr, dass der Algorithmus in einem dieser 
lokalen Minima hängenbleibt und dadurch nur eine suboptimale Lösung 
liefert. Neben der zufälligen Initialisierung der Startkonfiguration bieten 
sich im vorliegenden Fall folgende Lösungen an: 

• Die Startpunkte werden in gleichmäßigen Abständen auf dem „Rand“ 
der Zeichenebene verteilt. Das Verfahren liefert für gleiche Cluster¬ 
lösungen immer dieselben, vielleicht aber suboptimalen Resultate. 

• Als Startpunkte werden die ersten beiden Faktoren einer PCA gewählt. 
Nach [53, 45] liefert dieser Ansatz die besten Ergebnisse. Bei den 
Textvektoren konnte ich keine relevanten Qualitätsunterschiede zur 
Initialisierung auf dem Rand der Zeichenebene erkennen. 
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2. Berechnung der Distanzen in A t Aus der aktuellen Konfiguration A t 
wird eine neue Distanzmatrix berechnet, die die Abstände zwischen den 
Abbildungspunkten q verzeichnet. 


Berechnung des Funktionswertes von Stress mithilfe der eben berech¬ 
neten, aktualisierten Distanzmatrix und Gleichung 5.7. Wenn der Funk¬ 
tionswert niedriger ist als ein zuvor gefundener, minimaler Funktions¬ 
wert 5(A) m j n , wird die aktuelle Konfiguration als optimal gespeichert 
(S(A) min <- S(A t )). 


4. Berechnung des Gradienten von Stress Wenn eine Funktion von n Va¬ 
riablen partielle Ableitungen erster Ordnung für diese Variablen besitzt, 
wird der Vektor aus diesen partiellen Ableitungen als Gradient bezeichnet. 
Der Gradient der Stress-Funktion ergibt sich als 


VS(A) 


dS( A) dS{ A) ÖS( A) dS(A) T 

dx\ ’ dy\ ’ ’" ’ dx n 5 dy n 


und besteht aus 2 • n Zeilen. Für die partielle Ableitung von S(A) nach 
einer Variable Xi sind nur diejenigen Summanden von S'(A) relevant, in 
denen die Variable Xi enthalten ist. Wegen ^(7+9) — lässt sich 

die partielle Ableitung außerdem zuerst für einen einzelnen der relevanten 
Summanden bilden und dann für die restlichen aufaddieren. Mit dij = 
dEu{qi,Qj) = y/(%i — Xj) 2 + (yi — yj) 2 ergibt sich für einen Summanden 
der Variablen Xi\ 


d 1 
dxi F n 


(öij dij) 


2 di, 


-(Xi — Xj). 


Analog lassen sich die Summanden für die y-Komponenten ermitteln, so 
dass sich für den Gradienten folgende Berechnungsvorschrift ergibt: 


VS(A) = 


( l >: \ 




■k E 


3 = 1 . 3^1 




2 \ ’ d-nj Onj 

Fn . “ d n j 

j=l 


— V 
\ 2^ 




(X n - Xj) 

HVn ~ Vj) 


(5.8) 


5. Bestimmung der Schrittweite A Von entscheidender Bedeutung für die 
Qualität des GAV ist die Wahl einer passenden Schrittweite A. Obwohl 
einige Verfahren wie Sammon (s.u.) A auf einen konstanten Wert setzen, 
bevorzugen viele Autoren eine flexible Anpassung der Schrittweite (s. z.B. 
[8, 268-272]). Zwei Verfahren wurden im vorliegenden Fall getestet: 
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1. Wenn sich der Wert der Stress-Funktion in einer Iteration verrin¬ 
gert, zeigt der (negative) Gradient anscheinend in die richtige Rich¬ 
tung. A wird in diesem Fall erhöht, andernfalls verringert. Wenn 
x eine kleine positive Zahl und AS(A) die Differenz zwischen den 
Stress-Werten zweier aufeinander folgender Iterationen bezeichnet 
(d.h. A5(A) = S(A t ) — S(A t -i)), errechnet sich A*+i nach folgender 
Regel: 


f (1 + x)Xt wenn A5(A) < 0 
\ (1 — x)Xt wenn A5(A) > 0 


2 . 


Ein anderer Ansatz untersucht den Winkel zwischen den Gradienten 
zweier aufeinander folgender Iterationen ([45, III, 316]). Zuerst wird 
dieser Winkel durch Umformen des Skalarprodukts (s. S. 61, Fußnote 
4) als 


a — arccos 


VS(A t )-VS(At.i) 

|V5(A t )||VS'(A t _ 1 )| 


mit 0 < a < 2n berechnet. Falls a ca. 0 Grad beträgt, wird die 
Schrittweite erhöht, da beide Gradienten in dieselbe Richtung zei¬ 
gen. Beträgt der Winkel ungefähr 180 Grad, d.h. zeigen die beiden 
Gradienten in entgegengesetzte Richtungen, wird A verringert. Nicht 
verändert wird die Schrittweite, wenn die Gradienten ungefähr senk¬ 
recht aufeinander stehen (o « J). Anstelle der von Kruskal vorge- 
schlagenen Formel zur Berechnung von At+i habe ich eine einfachere 
Methode gewählt. Wenn x wieder eine kleine positive Zahl bezeich¬ 
net, ergibt sich mit ß\ = |tt und ß 2 = § 7 r die neue Schrittweite 
als 

f (1 + x^^)X t wenn a < ßi 
At+i = < X t wenn ßi < a < ß 2 (5.9) 

^ (1 — % a ~ßP 2 )A t wenn ß 2 < a < n 


Der Wert wird maximal, wenn a den Wert 0 hat (A*+i = (1 + 
x ^ 1 ßi° )X t = (1 + während sich für a — n der Wert At+i = (1 — 
x)Xt ergibt. Dazwischen liegende Werte werden in linearer Abhängig¬ 
keit von der Größe des Winkels berechnet, was der wichtigste Unter¬ 
schied zu der in 1. angeführten konstanten Funktion ist. 


6 . Berechnung der neuen Konfiguration Die auf A t folgende Konfigurati¬ 

on At+i wird nach der Formel A$+i = A t — XVS(A t ) berechnet. 

7. Überprüfen einer Abbruchbedingung Nach Aktualisierung der Konfi¬ 

guration wird eine Abbruchbedingung überprüft, die u.a. auf folgende Ar¬ 
ten realisiert werden kann: 


• Der Funktionswert von Stress verringert sich nur noch sehr wenig: 
S( At_i) - S(A t ) < e. 

• Der Betrag des Gradienten unterschreitet einen Schwellenwert (s. 
aber [57]): |V5(A t )| < e. 
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• Eine festgelegte Zahl an Iterationen ist durchlaufen. - Das Kriteri¬ 
um ist nicht besonders elegant und für große Datensätze zu zeitauf¬ 
wendig. Da aber weder Eleganz noch Zeit im gegebenen Fall eine 
besonders wichtige Rolle spielen, wird die Berechnung nach 2000 Ite¬ 
rationen abgebrochen. 

Ist die Abbruchbedingung nicht erfüllt, startet die Ausführung erneut bei 
Schritt 2. 

Abbildung durch Sammon-Mapping 

Sammons Methode der Dimensionsreduzierung ([70]) geht von einer Stress- 

Funktion (Gleichung 5.7) der Form 



(5.10) 


aus. Die Funktion wird mit einer Variante des Newton-Verfahrens minimiert 
([70, 408]). Dabei wird vom Wert einer Variablen a* das Produkt aus einem 
„magic factor “ mf (0.3 < mf < 0.4) und dem Quotienten der ersten und der 
zweiten Ableitung von S( A) nach dieser Variablen abgezogen: 


dS(A t ) 

dai 


(5.11) 


a it+1 =a it - mf 


d 2 S( Ai) ' 

I 


Die Minimierung wird durch ein iteratives Verfahren durchgeführt, das demje¬ 
nigen von Gradient ähnelt. 

5.2.3 Implementierung 

Die diskutierten Algorithmen wurden an mehreren Clusterlösungen getestet. 
Sowohl auf Grundlage des Stress-Werts Se (Gleichung 5.6) für die Endkon¬ 
figuration als auch aufgrund des optischen Eindrucks schneidet das Verfahren 
Gradient in den meisten Fällen am besten ab. Die Ergebnisse von Sammon lie¬ 
gen in der Qualität fast immer gleichauf und sind optisch kaum von denjenigen 
bei Gradient zu unterscheiden, während PCA deutlich schlechtere, aber immer 
noch akzeptable Ergebnisse liefert. Daraus ergibt sich folgende Strategie für die 
zweidimensionale Darstellung. Die Daten werden zuerst mit Gradient in die 
Zeichenebene abgebildet. Liegt Se unter einem global gültigen Schwellenwert, 
wird die Lösung von Gradient ausgegeben. Andernfalls wird die Visualisierung 
mit Sammon und PCA wiederholt und die beste der drei Lösungen ausgegeben. 

5.3 Textgruppierung nach Synonymlisten 

Textgruppierungen, die auf Synonymlisten einzelner Begriffe basieren, liefern 
Text-Cluster auf Grundlage punktueller Merkmale. Wegen des geringen Zeilen¬ 
umfangs der Synonymlisten sagt jede einzelne dieser Textgruppierungen nur 
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wenig über das globale Verhältnis der beteiligten Texte aus. Es liegt daher na¬ 
he, die Ergebnisse dieser punktuellen Gruppierungen zu akkumulieren, um sich 
einen Eindruck vom globalen Zusammenhang der Texte zu verschaffen. Wenn 
insgesamt n verschiedene Texte in Cluster eingeordnet wurden, wird dafür zu¬ 
erst eine Matrix der Dimension n x n eingerichtet. Dann werden alle gefunde¬ 
nen Cluster der Reihe nach ausgezählt. Besteht ein Cluster z.B. aus den Tex¬ 
ten {RHT, KaiNigh, RäjNigh}, werden die Matrixzellen [RHT][KaiNigh], 
[RHT][RäjNigh] und [KaiNigh] [RäjNigh] jeweils um den Wert +1 erhöht. 
Die absoluten Häufigkeitswerte /i^(Tj,Tj), die sich durch dieses einfache Aus¬ 
zählen ergeben, sind in Tabelle 5.2 dargestellt. Da es sich um eine symmetrische 
Matrix handelt, ist nur die obere rechte Hälfte abgedruckt. 

In der linken oberen Ecke der Matrix ist ein relativ dicht besetzter Bereich zu 
erkennen, der vor allem die Nighantus umfasst. Nicht alle Texte aus der alche- 
mistischen Tradition sind in der Matrix enthalten, und die enthaltenen haben 
meist niedrige Häufigkeitswerte. Diese Tatsache ist durch die geringe Anzahl 
von Synonymlisten und ^arpa-Definitionen in diesen Texten zu erklären. Um 
den Inhalt von Tabelle 5.2 anschaulicher darzustellen, werden die absoluten in 
relative Häufigkeitswerte hn(Ti,Tj ) umgewandelt. Wenn insgesamt m verschie¬ 
dene Synonymlisten und vargas untersucht wurden, wird dafür die in jeder Zelle 
verzeichnete absolute Gruppierungshäufigkeit eines Textpaars durch den Wert 
m geteilt. Da jedes Textpaar maximal m Mal gruppiert werden kann, ergibt die 
Division durch m Werte im Bereich [0,1]: hji(Ti,Tj) = hA ^ T j ) . ^ R eignet sich 
zur Konstruktion einer einfachen Distanzfunktion dsYN zwischen zwei Texten 
Ti und Tj (vgl. S. 55ff.), die sich als dsYN = 1 — hn(Ti,Tj) berechnet. Auf 
Basis dieser Distanzwerte kann mit dem Gradientenabstiegsverfahren aus Ka¬ 
pitel 5.2.2 eine zweidimensionale grafische Darstellung der Cluster-Intensitäten 
erzeugt werden. Das in Abbildung 5.6 dargestellte Ergebnis des GAV wurde mit 
dem Graph-Editor yEd 9 weiterverarbeitet. Der schon in der Datentabelle 5.2 
erkennbare intensiv verknüpfte Bereich ist links unten in Abbildung 5.6 konzen¬ 
triert. Beschränkt man sich nur auf die starken (Hr >0.1) Verbindungen, lässt 
sich das Diagramm weiter zu folgender Form vereinfachen: 


AstNigh = 


- BhPr^ 


KaiNigh 

—— DhanvNigh- 

RäjNigh 

RRÄ 

RRS 

MPälNigh 


ÄK 

RAin 

RCüM 


Die Ergebnisse des Verfahrens sind in die abschließende Darstellung der alche- 
mistischen Lehrtradition in Kapitel 8.3 eingeflossen. 


'http://www.yWorks.com 
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AK 

RäjNigh 

AstNigh 

BhPr 

MPälNigh 

RSS 

KaiNigh 

DhanvNigh 

RArn 

RMaiij 

RRÄ 

SdhSamh 

RRS 

RCint 

RTar 

RCüM 

AK 

21 1 3 1 4 

RäjNigh 

1 3 3 2 7 11 2 1 

AstNigh 

10 8 1 1 4 1 

BhPr 

11 3 6 6 1 1 1 1 

MPälNigh 

2 22 7 

RSS 

2 1 2 3 2 2 1 1 

KaiNigh 

12 

DhanvNigh 

1 

RArn 

8 1 

RMaiij 

2 

RRÄ 

1 

SdhSamh 

1 

RRS 

1 10 

RCint 

1 

RTar 


RCüM 



Tabelle 5.2: Akkumulierung der Cluster-Ergebnisse für alle untersuchten Syn¬ 
onymlisten und vargas 
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Abbildung 5.6: Gruppierung der Texte nach Inhalt von Synonymlisten 



Kapitel 6 

Textgruppierung mit 
Zitaten 


Kapitel 5 hat die Textgruppierung auf Basis von Synonymlisten und damit eine 
Form der Ähnlichkeitshypothese untersucht (vgl. S. 12). Das aktuelle Kapitel 
widmet sich der Frage, ob Zitate für eine automatisierte Textdatierung verwen¬ 
det werden können. In philologischen Studien findet sich häufig der folgende 
Argumentationsansatz, der ein Zitierverhältnis und damit eine zeitliche Relati¬ 
on zwischen zwei Texten T\ und T 2 belegen soll: „T 2 enthält eine Passage P, die 
mit leichten Modifikationen auch in T\ zu finden ist. Pi, d.h. die Version von P 
in Ti, stellt die ursprüngliche Version der Passage dar, während P 2 eine über¬ 
arbeitete Version von P\ ist. T 2 zitiert also T\ und ist deshalb jünger als T\. u 
Dieser Argumentationsansatz wird bei der Zitatsuche im alchemistischen Corpus 
aus zwei Gründen nicht verfolgt. Erstens soll die Datierung alchemistischer Tex¬ 
te auf so wenig nicht-quantifizierbare Informationen wie möglich zurückgreifen. 
Die Aussage, dass eine Passage z.B. überarbeitet wurde, führt aber gerade diese 
Art der Information in die Argumentation ein, da sie oft auf nicht explizit for¬ 
muliertem Wissen beruht. Der traditionelle Ansatz soll damit nicht abgewertet 
werden, andererseits aber die numerischen Methoden nicht unnötig verfälschen. 
Der zweite Grund, diese philologische Argumentationsform nicht heranzuziehen, 
ist die reine Menge an ähnlichen Passagen. Die manuelle Bewertung jeder Be¬ 
ziehung würde erhebliche Zeit in Anspruch nehmen und das Augenmerk von 
vielleicht wichtigeren Indikatoren als einem Zitierverhältnis ablenken. 

Eine automatische Zitatsuche wird daher keine gerichteten zeitlichen Relatio¬ 
nen liefern, die das Ergebnis einer traditionellen Untersuchung von Zitaten sind. 
Stattdessen wird ein solcher Suchalgorithmus darauf ausgerichtet sein, zunächst 
einmal effektiv annähernd ähnliche Textpassagen zu finden (Abschnitt 6.1.1) 
und ihre Relevanz zu bewerten (Abschnitt 6.1.2). I 11 einem dritten Schritt wird 
aus den so gesammelten Daten ein Abhängigkeitsgraph alchemistischer Texte 
konstruiert, der zur Untersuchung der alchemistischen Lehrtradition benutzt 
werden kann (Abschnitt 6.2). Dass die oft subjektive Bewertung der Zitierrich- 
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tung entfällt, führt hier also zur Abschwächung einer Methode. Das Verfahren, 
das auf den folgenden Seiten dargestellt wird, liefert nur ungerichtete Relatio¬ 
nen, die aber die Schulbildung in der indischen Alchemie erhellen können. 


6.1 Automatische Zitatsuche 

Eine effektive Methode, um Zitate in größeren Mengen Text zu suchen, kann 
nicht nur bei der Analyse des alchemistischen Corpus, sondern auch bei anderen 
philologischen Aufgaben gute Dienste leisten. Meines Wissens gibt es momentan 
kein Programm, das diese Aufgabe unüberwacht auf lexikalischer Ebene für 
Sanskrit-Texte durchführt. Nach der Definition weniger Grundbegriffe werde 
ich in diesem Abschnitt beschreiben, welche Algorithmen sich für diese Aufgabe 
eignen. 

Die nächst liegende Definition des Begriffs „Zitat“ bezieht sich auf die phone¬ 
tische Ebene von Texten. Ein Zitat ist die Übernahme einer längeren sinnvollen 
Lautfolge aus einem Text T\ in einen anderen Text T 2 durch den Autor von 
Da Computer momentan nicht beurteilen können, ob eine Lautfolge sinnvoll ist, 
muss ein Algorithmus für die automatische Suche nach phonetischen Zitaten 
nur dazu in der Lage sein, in mindestens zwei Texten auftretende identische 
Lautketten zu finden. Als Minimallänge für ein Zitat bietet sich in metrischen 
Texten der Vers, in nicht-metrischen Texten jede durch einen (Doppel-) danda 
abgeschlossene Lautsequenz an. Wenn auf den folgenden Seiten von einem „Satz“ 
die Rede ist, sind damit immer diese beiden Varianten gemeint. Zieht man die 
teilweise katastrophale Überlieferungssituation von Sanskrit-Texten in Betracht, 
lassen sich mit einem Algorithmus, der nur identische Lautketten sucht, viele 
Beinahe-Zitate nicht finden: 

laksmano rämasya pädau ksälayati // 

laksmano rämapädau, ksälayati // 

Obwohl beide Sätze bis auf eine Silbe übereinstimmen, würden sie wohl zu Un¬ 
recht nicht als Zitate markiert werden. An dieser Stelle bieten sich zwei Lösungs¬ 
strategien an. Entweder benutzt man eine auf phonetischer Ebene fehlertolerante 
Vergleichsfunktion, oder man greift auf die nächsthöhere sprachliche Ebene, in 
diesem Fall die Lexik zurück. Für die rein phonetische Ebene sind einfache Pro¬ 
gramme frei verfügbar. Im folgenden wird deshalb der zweite Ansatz verfolgt. 

Sind zwei Texte morphologisch und lexikalisch analysiert in der Sanskrit- 
Tagger-Datenbank enthalten, kann man jeden Satz dieser Texte als geordnete 
Abfolge von Lexemen darstellen. Die beiden Beispielsätze würden durch diesen 
Schritt in zwei identische Abfolgen von Lexemen transformiert werden ( laksma - 
na, räma, päda, ksälay). Sucht man Zitate jetzt auf dieser lexikalischen Ebene, 
werden die beiden phonetisch verschiedenen Sätze als identisch erkannt. Obwohl 
dieser Ansatz schon deutlich mehr Zitate findet als der rein phonetische, schlägt 
er fehl, wenn z.B. im zitierten Satz ein Lexem durch ein anderes ersetzt oder 
die Reihenfolge weniger Lexeme vertauscht wurde. Die lexikalischen Sequenzen 
müssen daher mit einer fehlertoleranten Funktion verglichen werden, die kleine 
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Unregelmäßigkeiten übersieht. Solch eine fehlertolerante, auf lexikalischer Infor¬ 
mation basierende Vergleichsfunktion markiert z.B. die folgenden beiden Verse 
als Zitate: 

vahnisumthibidam bilvarn lavanam pesayetsamam RRS, 16, 100 

vahnim sunthzm bidam bilvarn lavanam cürnayet SdhSamh, 2, 12, 258 

samam 

Durch den Vergleich lexikalischer anstelle phonetischer Einheiten wurde nicht 
nur die unterschiedliche Morphologie in der ersten Vershälfte ignoriert. Die feh¬ 
lertolerante Vergleichsfunktion hat zusätzlich das Wortpaar cürnay - pesay über¬ 
sprungen. Damit lässt sich die Definition des Zitats von der phonetischen auf 
die lexikalische Ebene erweitern. Ein Zitat ist eine Sequenz von Lexemen, die 
mindestens einen Satz umfasst, in zwei Texten T\ und T 2 mit nur geringen 
Abweichungen auftritt und vom Verfasser von X 2 absichtlich aus T\ übernom¬ 
men wurde. Um Zitate nach dieser Definition automatisch erfassen zu können, 
müssen drei Komponenten formalisiert werden: 

1. Um ähnliche lexikalische Sequenzen zu finden, benötigt man eine fehlerto¬ 
lerante Vergleichsfunktion für lexikalische Sequenzen und eine Strategie, 
um mit möglichst wenigen Schritten ähnliche Sätze zu finden (Kap. 6.1.1). 

2. Nachdem man ähnliche Sequenzen mit Schritt (1) gefunden hat, muss man 
beurteilen, ob sie absichtlich übernommen wurden (Kap. 6.1.2). 

3. Schließlich müsste ein Algorithmus entworfen werden, mit dem die Über¬ 
nahme- oder Zitierrichtung ( T\ —>■ T 2 oder T 2 —> Ti?) bestimmt wird. Für 
diese Aufgabe kann ich keine automatisierte Lösung anbieten. Abschnitt 
6.3 bietet eine Liste von gerichteten Zitierrelationen, die mit traditionellen 
philologischen Überlegungen aus dem Corpus gewonnen wurden. 

6.1.1 Suchen lexikalisch ähnlicher Sequenzen 

Die einfachste Suchstrategie wählt nacheinander jeweils einen Satz aus Text T\ 
(Umfang: n\ Sätze) und vergleicht diesen Satz mit jedem Satz aus T 2 (Umfang: 
7i2 Sätze). Dabei werden n\ ■ n 2 Sequenzen verglichen. Um diesen Ablauf zu 
beschleunigen, werden alle Sätze aus T\ vor Beginn der Suche in einem Trie ge¬ 
speichert. 1 Die Sätze aus Tj werden dann nur noch in diesem Trie gesucht. Da bei 
der Suche im Trie zwei Sequenzen allerdings exakt verglichen werden, verbietet 
diese Form der Speicherung den Vergleich fast identischer Sequenzen. Abhilfe 
bietet hier eine Grundidee des Apriori-Algorithmus ([3]). Zwei Sätze sollten 
sich nicht zu stark unterscheiden, wenn sie als Zitate gelten sollen. Sie müssen 
daher in langen Teilsequenzen lexikalischer Einheiten übereinstimmen. Neben 
der vollständigen Sequenz si aus T\ werden daher zusätzlich ^ J^ 1 ^, = |si| aus 
|si| — 1 Elementen bestehende Teilsequenzen von si im Trie gespeichert. Lässt 

1 Dieses Verfahren wird angewendet, wenn ni <712; andernfalls werden die Sätze aus T2 
im Trie gespeichert. 
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sich die Sequenz S 2 vollständig oder in einer ihrer \si \ — 1 langen Teilsequenzen 
im Trie finden, wird sie an den fehlertoleranten Detailvergleich weitergereicht. 
Der hierfür benutzte Levenshtein-Algorithmus ist von der Grundidee identisch 
mit dem Alignment-Algorithmus für alchemistische Vorschriften (Kap. 4, S. 41). 
Wenn der Satz aus T\ |si| lexikalische Einheiten und der Satz aus T 2 |^ 2 1 lexika¬ 
lische Einheiten umfasst, wird eine Matrix der Dimension (|si| + 1) x (| S 2 1 + 1) 
gebildet. Die Zellen der ersten Zeile und Spalte der Matrix werden auf den Wert 
0 gesetzt. Beginnend mit der zweiten Spalte wird dann die Matrix spaltenweise 
durchlaufen. Der Wert vuj\ einer noch unbesetzten Zelle der Matrix an Position 
(i,j) berechnet sich nach folgender Vorschrift: 

r 1)+ 1 

V(ij) = min < + 1 

{ v (i . ij-i)+7 

7 gibt die „Kosten“ an, die durch die Kombination des i — lten Symbols aus 
Sequenz 1 mit dem j — lten Symbol aus Sequenz 2 entstehen, und entspricht 
dem Strafwert beim Sequenz-Alignment (vgl. S. 44). Sind die beiden Symbole 
identisch, ist 7 = 0; sonst 7 = 1. Nachdem alle Zellen gefüllt worden sind, fin¬ 
den sich die Gesamtkosten des Sequenzvergleichs in der rechten untersten Zelle 
der Matrix. Liegt dieser Wert unter einem benutzerdefinierten Schwellenwert, 
werden die beiden Sätze als Zitate akzeptiert. In der folgenden Matrix wird das 
Verfahren an zwei Ausformungen des Satzes „Laksmana wäscht Rämas Füße“ 
demonstriert: 




laksmana 

rama 

pada 

ksalay 


0 

0 

0 

0 

0 

laksmana 

0 

0 

1 

1 

1 

päda 

0 

1 

1 

2 

2 

räma 

0 

1 

2 

2 

3 

ksälay 

0 

1 

2 

3 

2 


Zuerst werden die erste Zeile und die erste Spalte mit Nullen gefüllt. Dann 
werden spaltenweise die Kosten für die Symbolkombination berechnet. In der 
ersten untersuchten Zelle [2,2] wird laksmana mit laksmana kombiniert (fett 
gedruckt). Der Wert dieser Zelle berechnet sich als 


[ i*i TI = 0 + 1 = 1 

V22 = niin < ^12 + 1 = 0 + 1 = 1 =0. 

\ ^n+7 = 0 + 0 = 0 


Analog werden die restlichen Zellen gefüllt. Die Gesamtkosten haben den Wert 
2, was in dieser Arbeit nicht als Zitat gewertet wird. 2 

2 Wenn L die kürzere der beiden Satzlängen bezeichnet, d.h. L — min(|si|, |s 2 |), ist der 
Schwellenwert 6, unter dem zwei Sätze als Zitate bewertet werden, so definiert: 


f 1 falls L < 5 
f 2 sonst. 
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Zählt man alle Zitate aus, die ein Text Ti mit einem anderen Text T 2 teilt, 
und dividiert man diese Anzahl durch die Zahl der Sätze in Ti, ergibt sich ein 
gerichteter Ähnlichkeitswert zwischen T\ und T 2 . Da zwei Texte nur selten die¬ 
selbe Zahl an Sätzen enthalten, unterscheiden sich die Ähnlichkeitswerte meist 
anhand des Divisors. Die gleiche Zahl von Zitaten wird in einem kürzeren Text 
also höher bewertet als in einem längeren Text, so dass der kürzere Text stärker 
aus dem längeren zitiert als umgekehrt. 

6.1.2 Bewertung der gefundenen Zitate 

Obwohl bisher von Zitaten die Rede war, wurden genau genommen nur (fast) 
identische Lexemsequenzen gesucht. Die Frage, ob diese Sequenzen absichtlich 
übernommen wurden, blieb im vorigen Abschnitt ausgespart. Allerdings ist die¬ 
se Frage von zentraler Bedeutung, um das Zitierverhältnis zwischen zwei Tex¬ 
ten automatisiert zu beurteilen. Wir brauchen deshalb einen Algorithmus, der 
einschätzen kann, ob Abschnitte zwischen zwei Texten absichtlich und syste¬ 
matisch oder nur „zufällig“ (im folgenden ohne Anführungszeichen!) übertragen 
wurden. 

Das erste und einfachste Kriterium, um zufällige von systematischen Zitaten 
zu unterscheiden, ist die reine Menge an Sätzen, die zwei Texte gemein haben. 
Treten z.B. 20% der Sätze von T\ auch in T 2 auf, dürfte ein systematisches Zi¬ 
tierverhältnis zwischen den Texten nicht zu bestreiten sein. Unzuverlässig wird 
dieses Kriterium, sobald die Menge gemeinsamer Sätze unter einen Wert von ca. 
5% sinkt. Da sich die meisten Textpaare aber unterhalb dieses Schwellenwerts 
befinden, muss eine Zitierrelation meistens mit weiteren Kriterien bewertet wer¬ 
den. 

Wissenschaftliche Themengebiete besitzen häufig einen Grundbestand typi¬ 
scher kurzer Phrasen, die in weitgehend identischer Form in vielen Texten des 
Fachgebiets auftreten und griffige Formulierungen für wichtige Inhalte liefern. 
Findet sich z.B. in zwei modernen Lehrbüchern der Chemie die Aussage „Das 
Volumen eines Gases hängt von Druck und Temperatur ab“, lässt sich allein 
daraus nicht ableiten, dass ein Autor vom anderen abgeschrieben hat (sondern 
nur, dass beide das ideale Gasgesetz beschreiben). Auch die indische Alche¬ 
mie kennt wohl solche typischen kurzen Phrasen, die nicht zwingend auf ein 
Zitierverhältnis zwischen Texten hindeuten, sondern als Standardphrasen der 
Alchemie zufällig in mehreren Texten auftreten können. 3 Diese Phrasen können 


3 Besonders häufig finden sich solche Phrasen im RArn, im RRA und (wahrscheinlich als 
echte Zitate) im ÄK: 

• Beim märana von Quecksilber: andhamüsägatam dhmätam khoto bhavati tatksanät 
(„In einer andhamüsä erhitzt wird [Quecksilber] im selben Augenblick zu einem kho- 
ta .“); z.B. in ÄK, 1, 23/24 (9x), RArn, 14-18 (15x) 

• Abschluss der Goldherstellung: jäyate kanakam divyam deväbharanabhüsanam („Es 
entsteht göttliches Gold, ein Götterschmuck.“); z.B. in: ÄK, 1, 23/24 (3x), RRÄ, 
V.kh., 4 (lx), RRÄ, V.kh., 6/7 (2x), RRÄ, V.kh., 9 (6x), RRÄ, V.kh., 15/16 (3x), 
RArn, 12 (lx), RArn, 14-16 (4x), RArn, 18 (lx) 

• Exotische Methoden der Goldproduktion: tasya mütrapwnsäbhyäm tämram bhavati 
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der mündlichen Lehrtradition des Fachgebiets oder einem Text entstammen, der 
dem späteren Autor oder dem modernen Forscher nicht mehr bekannt ist. Ei¬ 
ne weitere Quelle für „unbeabsichtigte“ Zitate sind Fehler und Korrekturen des 
Herausgebers, der z.B. einen ihm unverständlichen Satz durch einen ähnlichen 
aus einem anderen Text ersetzt. Es ist zu erwarten, dass solche zufälligen Zitate 
vor allem aus sehr kurzen Abschnitten von ein oder zwei Sätzen bestehen. Sie 
werden außerdem eine gewisse Streuung über die Fachliteratur zeigen und damit 
in mehr als zwei Texten auftreten. Ein Diagramm, in dem die Häußgkeit von 
zufälligen Zitaten einer bestimmten Länge gegen die Länge dieser Zitate aufge¬ 
tragen ist, sollte einen stark abfallenden Verlauf der Häußgkeit bei zunehmender 
Zitatlänge zeigen. Auf der linken Seite von Abbildung 6.1 ist solch ein theore¬ 
tisch zu erwartender Verlauf skizziert, der auch mit einem kombinatorischen 
Gedankenexperiment gerechtfertigt werden kann. * * 4 Anders hegt der Fall, wenn 
längere zusammenhängende Satzblöcke in zwei Texten auftreten. Je länger solch 
ein gemeinsamer Abschnitt ist, desto größer ist die Wahrscheinlichkeit, dass er 
nicht durch Zufallsmechanismen in den zitierenden Text gelangt ist. 

Vergleicht man die in Fußnote 4 theoretisch abgeleitete Verteilung von zufälli¬ 
gen Zitaten mit der Häufigkeitsverteilung in Texten, von denen bekannt ist, dass 
sie systematisch auseinander zitieren, ergibt sich ein klarer Befund. Die Häufig¬ 
keitsverteilung bei systematisch zitierenden Texten zeigt einen Verlauf, der dem 
theoretisch abgeleiteten für zufällige Zitate genau entgegengesetzt ist. Auf der 
rechten Seite von Abbildung 6.1 ist die Häufigkeitsverteilung für Sätze aufgetra¬ 
gen, die sowohl im RCÜM als auch im RRS auftreten. Dass der RRS aus dem 
RCÜM zitiert, lässt sich zweifelsfrei nachweisen (vgl. Kap. 6.3; s.a. [5] und [47, 
IIA, 666/67]). Der y-Wert zeigt zu jeder Zitatlänge (x-Achse), wieviel Prozent 

käncanam („Durch seinen Urin und seinen Kot wird Kupfer zu Gold.“); z.B. in: AK, 

1, 23 (2x), RRÄ, Ras.kh., 2-4 (5x), RArn, 12 (2x), RAK, 1 (lx) 


4 Der Verlauf der Wahrscheinlichkeitsfunktion, die das zufällige gemeinsame Auftreten von 
Sätzen oder Satzgruppen in zwei Texten beschreibt, kann mit dem folgenden, stark idea¬ 
lisierten Zufallsexperiment abgeschätzt werden. Gegeben seien zwei Texte Ti und T 2 , die 
n\ bzw. 712 Sätze umfassen (ni < «, 2 ), und ein Fundus F von bereichsspezifischen Sätzen, 
der N Sätze umfasst, p sei die Wahrscheinlichkeit, dass ein Satz oder eine Satzgruppe der 
Länge k aus diesem Fundus gezogen und in T\ eingefügt wird. Es werden k Sätze aus die¬ 
sem Fundus gezogen und im Block an einer Stelle in T\ eingefügt. Diese k Sätze können auf 
N ■ (N — 1) • ... (N — k + 1) — Arten gezogen werden und werden nach dem Ziehen 

wieder nach F zurückgelegt. Jetzt werden wieder k Sätze aus F gezogen und an einer belie¬ 
bigen Stelle in T 2 eingefügt. Die Wahrscheinlichkeit, dass für T\ und T 2 dieselben k Sätze in 
gleicher Reihenfolge gezogen wurden, beträgt 

1 

( N\ \2' 

V(W-fc)!' 


Da dieser Vorgang für T\ maximal p • n\ Mal wiederholt werden kann, ergibt sich als 
Abschätzung der Gesamtwahrscheinlichkeit 


G(p,ni, k) < 


( N - _ \2pn-i_ 

Qv-fc)!' 


Für Texte, in denen vor allem nach zufälligen Mechanismen zitiert wird, ist also eine stark 
abfallende Häufigkeitsverteilung zu erwarten, die derjenigen in Abb. 6.1, links ähnelt. 
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Zitatlänge 



Abbildung 6.1: Theoretisch zu erwartende Wahrscheinlichkeitsverteilung für ein 
zufälliges Zitat aus k Sätzen (links; vgl. Fußnote 4) und beobachtete Zitathäufig¬ 
keit zwischen RCÜM und RRS (rechts) 


(z.B. 0.1 = 10%) aller Sätze des RCÜM in Zitatblöcken der entsprechenden 
Länge enthalten sind. Offenbar werden vor allem lange Passagen von mehr als 
vier Sätzen wörtlich aus einem Text in den anderen übernommen, während die 
Anzahl kurzer Übernahmen fast zu vernachlässigen ist. Ähnliche, wenn auch 
oft nicht so deutlich ausgeprägte Häufigkeitsverteilungen ergeben sich auch für 
andere systematisch zitierende Textpaare (s. Abb. 6.2, rechts). Die Zunahme 
der Häufigkeit mit zunehmender Zitatlänge ist daher ein gutes Indiz dafür, dass 
zwei Texte systematisch auseinander zitieren. 

Außer dem Verlauf der Häufigkeitsverteilung gibt es ein zweites Indiz, mit 
dem sich zufällig und systematisch zitierende Texte unterscheiden lassen. In den 
Textabschnitten, die der RRÄ mit der SdhSamh und dem RArn teilt, sinkt 
die Häufigkeitsverteilung ähnlich stark ab wie im Modell der zufälligen Zitate 
(grafische Darstellung in Abb. 6.2, links), gk gibt die Anzahl der Passagen an, 
die aus Zitatblöcken von k Sätzen Umfang bestehen: 


Text 

gi [exklusiv] 

92 

93 

RArn 

138[24] 

20(8] 


SdhSamh 

15[1] 

8[2] 

3[0] 


Neben der Zahl der Verse, die in Zitatblöcken der entsprechenden Länge stehen 
(z.B. 138), ist in eckigen Klammern die Zahl der Verse angegeben, die nur an die¬ 
ser Stelle und nicht in anderen Teilen der alchemistischen Literatur und damit 
exklusiv zitiert werden (z.B. 24). Besonders deutlich ist das Ergebnis für Zitate, 
die einen Vers lang sind. Nur 17.4% (RArn) bzw. 6.7% (SdhSamh) aller Zitate 
von einem Vers Umfang verbinden den RRÄ exklusiv mit dem jeweiligen Ver¬ 
gleichstext. Die übrigen kurzen Zitate finden sich auch in anderen Texten und 
sind damit deutlich über die Fachliteratur gestreut. Untersucht man dagegen 
Texte, die wahrscheinlich systematisch auseinander zitieren, auf Streuung der 
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Zitatlänge Zitatlänge 


Abbildung 6.2: Zitate im RRÄ. - Links: Zufällige Zitate (durchgezogene Linie: 
RArn; gestrichelte Linie: SdhSamh); rechts: systematische Zitate (durchgezo¬ 
gene Linie: RRS; gestrichelte Linie: RCint) 


zitierten Passagen, wird der Zusammenhang zwischen zufälligem Zitieren und 
hoher Streuung untermauert. Als Beispiel diene das Zitierverhältnis zwischen 
dem RRÄ als Quelle und RCint und RRS als zitierenden Texten. Für den 
RCint lässt sich diese Zitierrelation eindeutig nachweisen (Abschnitt 6.3). Dass 
der RRS systematisch aus dem RRÄ zitiert, ist zumindest sehr wahrscheinlich 
(vgl. [47, IIA, 667]). Außerdem zeigen die gemeinsamen Passagen von RRÄ und 
RRS die typische Häufigkeitsverteilung systematisch zitierender Texte (Abbil¬ 
dung 6.2, rechts). Die folgende Tabelle führt die Anzahl der Sätze aus dem RRÄ 
auf, die in einem der beiden Vergleichstexte in Zitatblöcken auftreten: 


Text 

gi [exklusiv] 

92 

93 

94 

9> 5 

RRS 

22 [17] 

30 [24] 

21 [18] 

8 [8] 

83 [78] 

RCint 

32 [17] 

26[16] 

39 [27] 

12 [12] 

30 [30] 


Die Unterschiede zu den zufällig zitierenden Textpaaren fallen sofort ins Auge, 
da selbst kurze Zitate (Länge < 2), bei denen man am ehesten eine zufällige 
Übernahme erwarten könnte, vergleichsweise hohe Exklusivitätswerte zeigen. 

Fassen wir die Kriterien zusammen, anhand derer systematisch zitieren¬ 
de Texte von zufällig zitierenden unterschieden werden. Identische Abschnitte 
können in zwei Texten nicht nur deshalb auftreten, weil der Autor des einen 
Textes den anderen absichtlich zitiert. Sie können auch durch eine Reihe zufälli¬ 
ger Mechanismen in beiden Texten erscheinen. Solche zufälligen Zitate werden 
in den meisten Fällen aus kurzen Passagen bestehen und nicht allzu häufig auf¬ 
treten. Das erste und sicherste Kriterium für systematisches Zitieren ist daher 








6.1. ZITATSUCHE 


85 


der reine Anteil an gemeinsamem Text. Je mehr Text zwei Werke gemein ha¬ 
ben, desto sicherer zitiert ein Werk aus dem anderen. Die Maßzahl vrel für 
dieses erste Kriterium ergibt sich als Anzahl der Sätze aus Text Ti, die dieser 
Text mit einem anderen Text T 2 gemein hat (G), geteilt durch die Gesamtzahl 
n\ der Sätze in Ti, d.h. vrel — Zuverlässig ist dieses Kriterium nur für 
relativ große Werte (vrel 0.05, d.h. 5%). Das zweite Kriterium untersucht 
die Länge der zitierten Passagen. Trägt man den Anteil derjenigen Sätze, die in 
zwei Texten auftreten, gegen die Länge dieser identischen Abschnitte auf, lassen 
sich zwei Arten von Häufigkeitsverteilungen beobachten. Neben einer stark ab¬ 
fallenden Verteilung bei zufällig zitierenden Texten tritt eine genau gegenläufige 
Häufigkeitsverteilung auf, die von langen Zitatblöcken dominiert wird. Indizien, 
die mit anderen Methoden gewonnen wurden, legen die Vermutung nahe, dass 
diese Verteilung bei systematisch auseinander zitierenden Texten auftritt. Nu¬ 
merisch kann der Verlauf dieser Häufigkeitsverteilung durch einen gewichteten 
Mittelwert oder Trend vtr der Häufigkeiten erfasst werden: 

V TR = 1 2 3 4 ' ( 1 ’gl+ 2 'g2+3-g3-4+4-p>5) = ^-(5l+2c/2 + 3p3-4+4p>5). 


Trägt man für alle Text paare vtr gegen vrel auf, ergibt sich das in Abb. 6.6 an 
zweiter Position dargestellte Streudiagramm. Die eingezeichnete Ausgleichsge¬ 
rade besitzt eine statistisch hochsignifikante (p) positive Steigung. Der Wert von 
vrel ist also positiv mit vtr korreliert, so dass bei einem großen Anteil gemein¬ 
samer Sätze auch viele lange Zitatblöcke zu erwarten sind. Ein drittes Kriterium 
für das systematische Zitieren ist eine geringe Streuung der zitierten Passagen. 
Zufällige Zitate werden vor allem aus einem allgemeinen Phrasenfundus der Al¬ 
chemie in die einzelnen Texte übernommen worden sein. Es ist daher relativ 
wahrscheinlich, dass eine Phrase aus diesem Fundus nicht nur in zwei Texten 
(„exklusiv“), sondern in mehreren alchemistischen Werken auftaucht. Eine ge¬ 
ringe Streuung ist dagegen bei systematisch zitierenden Texten zu erwarten und 
lässt sich bei ausgewählten Textpaaren auch wirklich beobachten. Als Maßzahl 
vexc für die Streuung von Zitaten in Text T\ wird die Zahl der exklusiven 
Zitate gEXC durch die Gesamtzahl der Zitate geteilt, d.h. vexc — 9 e q C . Trägt 
man vexc gegen vrel auf, lässt sich wieder ein eindeutig positiver Trend er¬ 
kennen, der statistisch allerdings weniger signifikant ist (s. Abb. 6.6, oberstes 
Diagramm). 

Die drei gewichteten Kriterien vreli vtr und vexc werden zum Wert v 
aufsummiert, der das Verhältnis zwischen zwei Texten erfasst. Als Gewichte 
habe ich wrel — 3, wtr = 2 und wexc — 1 gewählt. Diese Auswahl ist 
subjektiv, spiegelt aber die Bedeutung der Kriterien wider, die sich auch in 
Abbildung 6.6 erkennen lässt, v ergibt sich als 


v = WRV R + WeVe + WtVt ) 


-(3ür + ve + 2 vt)- 
0 


( 6 . 1 ) 


Trägt man die Werte v für alle verbundenen Textpaare in ein Histogramm ein, 
ergibt sich eine annähernd eingipflige Verteilung, die einer Normal Verteilung 
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Abbildung 6.3: Zitierrelationen in Texten der indischen Alchemie nach Zi¬ 
tierhäufigkeit und Verlauf der Häufigkeitsverteilung (s. S. 85ff.) - In der ersten 
Spalte steht der Name des Textes, für den mit Gleichung 6.1 die Maßzahl v 
ermittelt wurde. 


ähnelt. Aus den Werten v werden das arithmetische Mittel v und die Stan¬ 
dardabweichung s v berechnet. Anhand von v, v und s v wird jedes Textpaar 
abschließend einer von vier Klassen zugeordnet: 


Kriterium 

Zusammenhangsstärke 

Symbole 

v < v — s v 

kein Zusammenhang 

(kein Symbol) 

V < V 

schwach 


V < V + s v 

mittel 

O 

V > V + s v 

stark 

• 


Die Zitierrelationen, die sich aus dieser Vorschrift ergeben, sind in Abbildung 
6.3 als Matrix dargestellt. 

6.2 Auswertung der Zitierrelationen 

Die Matrix in Abbildung 6.3 beschreibt komprimiert die Zitierverhältnisse im 
alchemistischen Corpus. Weitergehende Rückschlüsse, z.B. über besonders eng 
verbundene Text gruppen oder isolierte Texte, lassen sich aus dieser Matrix aber 
nur mühsam gewinnen. Gesucht wird deshalb ein Verfahren, das die Zitierrela¬ 
tionen in eine leicht analysierbare, am besten grafische Form umwandelt. Zwei 
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dafür geeignete Verfahren wurden schon bei der Gruppierung von Synonymen 
beschrieben: Die Clusterbildung (durch vollständiges Durchsuchen eines kleinen 
Datenraums; Kap. 5.1, S. 56ff.) und die Visualisierung der Ergebnisse mit mul¬ 
tidimensionaler Skalierung (Kap. 5.2, S. 65ff.). Um Gruppen einander intensiv 
zitierender Texte zu finden, könnte auf die Zitierdaten also z.B. der in Kapi¬ 
tel 5.1 beschriebene Clusteralgorithmus angewendet werden. Da die Daten der 
Zitierrelationen aber nicht binär, sondern ordinal skaliert sind 5 und die Matrix 
außerdem nicht allzu dicht besetzt ist, werden die Zitierrelationen mithilfe eines 
Graphen ausgewertet. 

Ein Graph besteht aus einer Menge von Knoten, die den Texten entsprechen, 
und einer Menge von Kanten, mit denen die Knoten verbunden sind. Eine Zitier¬ 
relation zwischen zwei Texten entspricht einer Kante, deren Gewicht durch die 
Stärke der Zitierrelation festgelegt wird. Der resultierende Graph ist gerichtet, 
da die Zitierrelationen teilweise nicht symmetrisch sind. Zwischen zwei Knoten 
des Graphen können sich damit keine, eine oder zwei Kanten befinden, die ver¬ 
schieden gewichtet sein können. Gegeben sei zum Beispiel die folgende Matrix 
von Zitierrelationen zwischen fünf Texten: 



Die Matrix wird zeilenweise in den daneben abgebildeten Graphen umgewan¬ 
delt. Die erste Zeile ergibt eine gerichtete Kante von A nach B, deren Bewertung 
(„stark“) durch einen dicken durchgezogenen Pfeil angezeigt wird. Die Auswer¬ 
tung der zweiten Zeile ergibt eine gerichtete starke Kante von B nach A (einsei¬ 
tiger —► doppelseitiger Pfeil) und eine schwache Kante (gestrichelter Pfeil) von B 
nach C usw. In diesem einfachen Fall ermöglicht schon die grafische Darstellung 
der tabellierten Daten ihre Auswertung. Es zeichnen sich zwei eng zusammen¬ 
gehörige Textgruppen {A, B} und {C, D, E} ab, die nur durch die schwache 
Kante B<->C verbunden sind. Wirft man einen Blick auf Abbildung 6.4, den 
Graphen der Zitierrelationen im alchemistischen Corpus, wird die Hoffnung auf 
eine schnelle Lösung aber gedämpft, da auch die grafische Umsetzung relativ 
komplex ist. Man benötigt daher einen Algorithmus, der den Graphen in stark 
zusammenhängende Teilgraphen oder Partitionen zerschneidet, die den gesuch¬ 
ten stark zitierenden Textgruppen entsprechen. Für diese Aufgabe existiert eine 
Vielzahl von Ansätzen (s. z.B. [38, 120ff.]). Eine leicht zu implementierende Me¬ 
thode, mit der das Problem näherungsweise gelöst werden kann, wird in [38, 
121ff.] beschrieben: 


• Für einen ungerichteten Graphen, der in stark zusammenhängende Teil¬ 
graphen zerschnitten werden soll, wird zuerst der minimale Spannbaum 

5 Zu Problemen beim Clustern von ordinal skalierten Daten und möglichen Lösungsansätzen 
s. z.B. [10, 568]. 
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berechnet. — Ein Spannbaum eines Graphen G ist ein zusammenhängen¬ 
der azyklischer Graph, der alle Knoten, aber nicht notwendig alle Kanten 
von G enthält (eine exakte Definition z.B. in [35, 191]). Alle Knoten, die in 
G miteinander über einen Pfad verbunden sind, sind auch in jedem Spann¬ 
baum von G über einen Pfad verbunden. Für viele zusammenhängende 
Graphen gibt es mehrere Spannbäume, die sich aber durch die Summe 
ihrer Kantengewichte unterscheiden können. Derjenige Spannbaum eines 
Graphen G , der von allen möglichen Spannbäumen von G die geringste 
Summe der Kantengewichte aufweist, wird als minimaler Spannbaum be¬ 
zeichnet und kann z.B. mit dem Algorithmus von Prim berechnet werden 
([35, 191ff.]). Die folgende Abbildung skizziert den Unterschied zwischen 
Graph, Spannbaum und minimalem Spannbaum: 



Auf der linken Seite ist ein zusammenhängender, ungerichteter und ge¬ 
wichteter Graph G dargestellt. Der Graph in der Mitte ist ein spannender 
Teilgraph von G , da er alle Knoten enthält, die auch in G enthalten sind, 
und diese Knoten wie in G Zusammenhängen. Da dieser Teilgraph nicht 
zyklisch ist, ist er ein Baum und somit ein Spannbaum. Die Summe der 
Kantengewichte dieses Spannbaums beträgt 5. Auf der rechten Seite ist 
schließlich der minimale Spannbaum abgebildet, bei dem sich die Kanten¬ 
gewichte auf den Wert 4 summieren. 

• Dieser Spannbaum wird auf „ungewöhnliche“, z.B. sehr schwache Kanten 
untersucht, die aus ihm entfernt werden. 

• Es ergibt sich eine Reihe nicht zusammenhängender Teilgraphen, die die 
endgültige Partitionierung darstellen. 

Bei den folgenden Berechnungen wird ein Graph verwendet, dessen Kantenge¬ 
wichte den Originalwerten aus Gleichung 6.1 (S. 85) entsprechen (s. Abb. 6.4). 
Zunächst wird dieser gerichtete in einen ungerichteten Graphen umgewandelt. 
Dabei werden zwei Kanten zwischen zwei Knoten durch eine einzige Kante er¬ 
setzt, die mit dem Mittelwert der Gewichte ihrer beiden Vorgänger bewertet 
wird. Da der Prim-Algorithmus den minimal gewichteten Spannbaum erzeugt, 
bei den Zitierrelationen aber nach Teilgraphen mit maximal gewichteten Kanten 
gesucht wird, werden die Kantengewichte vor Anwendung des Prim-Algorithmus 
invertiert. Der resultierende minimale Spannbaum der Zitierrelationen ist in Ab¬ 
bildung 6.5 dargestellt und bestätigt wichtige Theorien über die Entwicklung 
der indischen Alchemie. An einer Mittlerposition finden sich die Texte RKDh, 
RArn, ÄK und RCÜM. RKDh und ÄK sind wahrscheinlich Kompilationen 
und in ihrer Bedeutung deshalb RArn und RCÜM untergeordnet. Von dieser 
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Abbildung 6.4: Graph der Zitierrelationen im alchemistischen Corpus (s. S. 85ff.) 


Hauptachse zweigen zwei Untergruppen ab. Die Gruppe auf der rechten Sei¬ 
te besteht hauptsächlich aus älteren Werken, die sich um den RRS scharen. 
Bemerkenswert ist die abgelegene Position des RRÄ, die angesichts der Bedeu¬ 
tung des Werkes und seines wahrscheinlich kompilatorischen Charakters nicht 
zu erwarten war. Auf der linken Seite findet sich eine Gruppe, die ungefähr Rays 
„iatro-chemischen“ Texten (vgl. S. 15) entspricht und vom Textpaar {SdhSamh, 
BhPr} dominiert wird. Diese Textgruppe wird allgemein einer späteren Ent¬ 
wicklungsstufe der Alchemie zugeordnet. 

Ein anderes Werkzeug zur Analyse von Graphen sind die sogenannten Zen¬ 
tralitätsmaße, mit denen die Wichtigkeit eines Knotens anhand seiner Position 
im Graphen numerisch erfasst wird. Die einfachste Maßzahl der Zentralität ist 
die relative Anzahl der Kanten, die mit einem Knoten verbunden sind (degree 
centrality). Im literaturwissenschaftlichen Kontext lässt sich diese Maßzahl als 
ungewichtete relative Zitierintensität eines Textes deuten. Wenn rii die Anzahl 
der Kanten bezeichnet, die von Knoten i ausgehen, und n max die maximale 
Zahl von Kanten, die von einem Knoten im Graphen ausgehen, kann dieses 
Zentralitätsmaß als Zp = n ni berechnet werden. Bezieht man das Gewicht 
jeder Kante mit ein, ergibt sich die gewichtete relative Zitierintensität Z^w-, 
die die Bedeutung eines Knotens besser bewerten sollte als Zd • Tabelle 6.1 
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Abbildung 6.5: Minimaler Spannbaum des Graphen der Zitierrelationen im al- 
chemistischen Corpus (Abb. 6.4) 


zeigt die trichotomisierten Werte für die Zentralitätsmaße Zd und Zdw j die 
aus dem Graphen in Abbildung 6.4 berechnet wurden. RRS, RCint und ÄK 
sind die am stärksten verknüpften Texte, was ihrer zentralen Position im Gra¬ 
phen (Abb. 6.4) entspricht. Auffällig ist die hohe Bewertung des RCint, der 
im minimalen Spannbaum nur eine untergeordnete Rolle spielt. Verantwortlich 
für die Positionierung im minimalen Spannbaum sind die hohe Zahl von Kanten 
mittleren Gewichts, die vom RCint abgehen, und mathematische Details des 
Prim-Algorithmus. In der Klasse mit der geringsten Zitierintensität Zdw sind 
vor allem die Texte zusammengefasst, die sich entweder durch eine eigenständi¬ 
ge Formulierungsweise (RPSudh) oder eine besondere Lehrtradition (RAdhy, 
RHT) auszeichnen. 


6.3 Daten für gerichtete zeitliche Relationen 

Selbst wenn anhand der numerischen Kriterien, die im letzten Abschnitt be¬ 
schrieben wurden, für ein Textpaar relativ sicher nachgewiesen werden kann, 
dass ein Text den anderen zitiert, ist damit noch nichts über die Richtung die¬ 
ser Zitierrelation und die zeitliche Reihenfolge der Texte gesagt. Automatisch 
gewonnene, uninterpretierte Zitate eignen sich beim aktuellen Stand der For¬ 
schung nur dazu, Schultraditionen aufzudecken. Allerdings steht außer Frage, 
dass einige alchemistische Texte intensiv aus anderen Werken zitieren und dass 
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Text 

Zd 

Text 

Zdw 

RRS 

1.0 

RRS 

1.0 

RCint 

0.84 

RCint 

0.86 

AK 

0.67 

AK 

0.71 

RManj 

0.64 

RManj 

0.71 

RRA 

0.63 

RRA 

0.64 

RKDh 

0.61 

RSS 

0.64 

RCÖM 

0.54 

BhPr 

0.57 

RSS 

0.49 

RCÖM 

0.57 

RArn 

0.48 

RKDh 

0.5 

BhPr 

0.43 

SdhSamh 

0.43 

SdhSamh 

0.42 

RArn 

0.43 

RAdhy 

0.23 

RSK 

0.36 

RSK 

0.18 

RAdhy 

0.21 

RHT 

0.16 

RPSudh 

0.21 

RPSudh 

0.09 

RHT 

0.14 


Tabelle 6.1: Zentralitätsmaße für den Graphen der Zitierrelationen (Abb. 6.4) 

sich bei manchen Zitierverhältnissen die Entlehnungsrichtung fast zweifelsfrei 
erkennen lässt. Um diese wichtigen Anhaltspunkte bei der automatischen Da¬ 
tierung des Corpus verwenden zu können, habe ich das alchemistische Corpus 
zusätzlich nach Text- und Autorennamen durchsucht. Folgende Begriffe, hinter 
denen in Klammern die jeweilige Trefferzahl vermerkt ist, wurden gesucht: 

gopälakrsna (0), govinda (5), cämunda (0), dhundhukanätha (0), ni- 
tyanätha (2), bhävaprakäsa (0), bhävamisra (0), yasodhara (1), rasa- 
manjari (1), rasaratnasamuccaya (0), rasaratnäkara (1), rasasamke- 
takalikä (1), rasädhyäya (0), rasärnava (3), rasendracintämani (1), 
rasendracüdämani (0), ras endras ärasamgraha (0), vägbhata (1), sä- 
rngadhara (0), sälinätha (0), somadeva (5) 

Wenn ein Text X 2 den Namen von T\ erwähnt, ist T 2 später als T\ (T 2 >- T\). 
Erwähnt T 2 den Namen des Autors von Ti, gilt nur dann T 2 >- Ti, wenn zusätz¬ 
lich der Kontext, in dem der Name in T 2 auftaucht, auch in T\ identifiziert 
werden kann (Operator t>). Diese Methode führt zu relativ konservativen Ergeb¬ 
nissen. Die folgende Liste stellt die so gewonnenen Regeln zusammen: 6 

BhPr 

Nicht berücksichtigt wurde BhPr, 7, 3, 134 (Erwähnung von Vägbhata; 
Referenz nicht identifizierbar, AHS?). 

MuA 

6 Ich weise darauf hin, dass sich die Ergebnisse nur auf die digital erfassten Partien des 
Corpus beziehen. 










92 


KAPITEL 6. ZITATE 


y RManj 
>- RRÄ 
^ RSI< 

Erwähnung der RManj (u.a. MuA [13] zu RHT, 1, 2) 
Erwähnung des RRÄ (u.a. MuA [20] zu RHT, 1, 1) 
Erwähnung der RSK (MuA [5] zu RHT, 2, 6) 

RKDh 

^ RArn 
>- RCint 

Erwähnung des RArn (u.a. RKDh, 1, 2, 23) 

Erwähnung des RCint (u.a. RKDh, 1, 1, 82) 

RPSudh 

>- RCÜM 

Erwähnung von Somadeva, dem Autor des RCÜM: (1) 
RPSudh, 4, 50 ( märana von Kupfer, medizinische An¬ 
wendung des Präparats ( somanätha ); RPSudh, 4, 44-50 
> RCÜM, 14, 66-70); (2) RPSudh, 7, 31 (Herstellung 
eines väritaras aus vajra ; RPSudh, 7, 30-31 > RCÜM, 
12, 34-35); (3) RPSudh, 9, 11 ( divyausadhis ; Referenz 
auf das sechste Kapitel des RCÜM) 

RRS 

^ RArn 
>- RCÜM 

Erwähnung des RArn (RRS, 11, 13) 

Erwähnung von Somadeva, dem Autor des RCÜM, u.a. 
in: (1) RRS, 3, 37 (medizinische Anwendung von ga- 
ndhataila ; RRS, 3, 34-37 > RCÜM, 11, 21-26); (2) RRS, 

5, 231 (medizinische Anwendung von bhünägasattva , > 
RCÜM, 14, 197) 


Nicht berücksichtigt wurden RRS, 1, 2-8 und RRS, 6, 50-54 (Erwähnung 
von Govinda in Listen von rasasiddhas ). 

RRÄ 

Nicht berücksichtigt wurden: (1) RRÄ, V.kh., 1, 66-69 (Erwähnung von 
Govinda in einer Liste von rasasiddhas ); (2) RRÄ, V.kh., 1, 66-70 (Er¬ 
wähnung von Yasodhara in einer Liste von rasasiddhas). 


RCint 

^ RRA 

Erwähnung von Nityanätha, dem Autor des RRÄ: (1) 
RCint, 3, 68-73 (Herstellung eines vidas, > RRÄ, V.kh., 
10, 71-76); (2) RCint, 8 , 240 (Herstellung der kämesva- 
ra-Medizin, > RRÄ, Ras.kh., 6, 88) 

>- RHT 

Erwähnung von Govinda, dem Autor des RHT (RCint, 

3, 113 > RHT, 6, 13) 

^ RArn 

Erwähnung des RArn (RCint, 2, 3) 

RCüM 

>- RHT 

Erwähnung von Govinda, dem Autor des RHT (RCüM, 
15, 34 > RHT, 2, 1) 


Diese festen Regeln werden in den Datierungsalgorithmus eingespeist, der in 
Kapitel 8 beschrieben wird. 


Anteil exkl. Zitate Trend Anteil exkl. Zitate 
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p = 0.00797 ** 



p = 8.37e-13 *** 



p = 1.93e-07 *** 


Abbildung 6.6: Streudiagramme der Werte vrel 5 vtr und vexc (s. S. 84) 
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Kapitel 7 


Trendhypothesen aus dem 
Sequenz-Alignment 


In den letzten beiden Kapiteln wurden alchemistische Texte mit einer Varian¬ 
te der Ähnlichkeitshypothese (Synonymlisten, Kap. 5) und anhand von Zita¬ 
ten untersucht (Kap. 6). Es hat sich gezeigt, dass diese beiden Ansätze zwar 
zur Aufdeckung von Lehrtraditionen, aber nicht zur automatischen Textdatie¬ 
rung geeignet sind. Das aktuelle Kapitel untersucht, ob die dritte Variante der 
inhaltlichen Datierungstechniken (Trendhypothese, s. S. 12) automatisiert zur 
Datierung verwendet werden kann. 

Trendhypothesen beruhen häufig auf Aussagen wie „Text T 2 zeigt einen ent¬ 
wickelteren (archaischeren) Stand des Fachgebiets als T\ und ist daher später 
(früher) als T\ u . Bei dieser Datierungstechnik wird also eine Differenz zwi¬ 
schen Inhalten in einen zeitlichen Abstand umgewandelt. Um solche Aussagen 
zu quantifizieren und wenigstens teilweise der rein subjektiven Beurteilung zu 
entziehen, bietet sich ein „Abfallprodukt“ des Sequenz-Alignments an. Cluster- 
Dendrogramme, die die innere Struktur von Gruppen alchemistischer Vorschrif¬ 
ten darstellen, werden mithilfe des UPGMA-Algorithmus konstruiert (vgl. Kap. 
4.2, v.a. S. 48). Dieser Algorithmus baut auf der phylogenetischen Theorie der 
sogenannten molecular clock property auf (MCP, s. z.B. [36, 202ff.]). Diese Theo¬ 
rie beruht auf dem Gedanken, dass funktionsfähige Mutationen, die zur Ausdif¬ 
ferenzierung von Spezies führen, mit einer konstanten Rate stattfinden. Ist diese 
Rate bekannt, lässt sich aus den Unterschieden in den Genomen zweier Taxa ihr 
zeitlicher Abstand ableiten. Bildlich gesprochen wird an der Wurzel, dem unter¬ 
sten Knoten des Dendrogramms (vgl. S. 48), eine Uhr auf eine Startzeit gestellt, 
die bei alchemistischen Prozeduren dem geschätzten Beginn der alchemistischen 
Überlieferung entspricht. Beim Durchqueren des Dendrogramms läuft diese Uhr 
mit konstanter Geschwindigkeit weiter. An Knoten, die nach ihrem per UPGMA- 
Algorithmus berechneten Zahlenwert gleich weit von der Wurzel entfernt sind, 
zeigt die Uhr daher immer denselben Wert. Schließlich zeigt diese fiktive Uhr 
beim Erreichen jedes Blatts dieselbe Zeit, da alle Blätter (= Vorschriften) gleich 
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weit von der Wurzel entfernt sind (vgl. [40, 366ff.]). Obwohl diese Theorie in der 
Genetik inzwischen überholt ist, eröffnet sie eine neue Sicht auf das Alignment 
alchemistischer Prozeduren. Falls sich Vorschriften zeitlich mit einer konstanten 
Rate verändern, könnte ihre Anordnung in einem Cluster-Dendrogramm Rück¬ 
schlüsse auf ihre Entstehungszeit und damit die Datierung der sie enthaltenden 
Texte erlauben. 


7.1 Extraktion von Zeitregeln aus Alignments 

Aus mathematischer Sicht müssen Distanzmatrizen, aus denen mit dem UPGMA- 
Algorithmus ein korrekter Baum konstruiert werden kann (vgl. 4.2), ultrame¬ 
trisch sein. Für jedes Triplett von Matrixeinträgen M(i , k) und M(j , k) 

muss dabei M(i,j) = M(i,k) = v und M(j,k) < v gelten. Vor allem in um¬ 
fangreichen Ähnlichkeitsmatrizen, die aus dem Vergleich alchemistischer Vor¬ 
schriften berechnet werden, ist diese Bedingung häufig verletzt. Ist eine Ma¬ 
trix aber nicht ultrametrisch, bildet der aus ihr konstruierte Baum das (zeitli¬ 
che) Verhältnis der zugrundehegenden Sequenzen mit großer Wahrscheinlichkeit 
nicht richtig ab. Eine Möglichkeit, dieses Problem abzumildern, bietet die Unter¬ 
suchung von Teilmatrizen bzw. Teildendrogrammen. In umfangreichen Cluster- 
Dendrogrammen alchemistischer Prozeduren finden sich oft mehrere Teilden- 
drogramme, die unterschiedliche Ausführungsmethoden der Hauptprozedur be¬ 
schreiben und denen in sehr vielen Fällen annähernd ultrametrische Teilmatrizen 
der Ähnlichkeitsmatrix entsprechen. Sobald ein inhaltlich zusammenhängendes 
Teildendrogramm gefunden und seine zugehörige Teilmatrix auf annähernde Ul- 
trametrik überprüft worden ist, kann dieses Teildendrogramm zeitlich interpre¬ 
tiert werden. Gälte die molecular clock property in voller Strenge, könnte man 
aus dem Datum für die Wurzel des Teildendrogramms und der „Mutationsrate“ 
der alchemistischen Prozeduren ein exaktes Datum für jedes Blatt, d.h. jedes 
Rezept und damit auch jeden Text errechnen. Da schon die meisten der Teilma¬ 
trizen nur annähernd ultrametrisch sind und die „Mutationsrate“ nicht bekannt 
ist, sollte man die Analogie zur Genetik aber auch nicht übertreiben. Anstelle 
exakter Datierungen werden aus den Teildendrogrammen daher relative zeitliche 
Distanzen und zeitliche Rangfolgen abgeleitet. 

In dem fiktiven Dendrogramm, das in Abb. 7.1 dargestellt ist, sind die Kno¬ 
ten mit K\ bis K§ durchnumeriert und die Blätter mit den Namen der Texte 
beschriftet, die die jeweilige Vorschrift enthalten. Das Augenmerk bei der Inter¬ 
pretation des Dendrogramms wird hier also von der alchemistischen Vorschrift 
auf die Ebene des Textes verschoben. Um beispielsweise von der Wurzel zum 
Blatt RRS zu gelangen, muss man die Knotenfolge K\ —>• K 2 —► Äjjf—► RRS) 
durchlaufen. Die „Uhr“, die an der Wurzel auf den Startzeitpunkt der alchemis¬ 
tischen Überlieferung gestellt wurde, läuft während der Bewegung durch den 
Baum weiter (t\ —>► £2 - 1 ► £ 3 ) und zeigt am Knoten Ä 3 , von dem die Blätter 
RRS und RCÜM abgehen, den Wert £3. Dieser Wert ist mit der Distanz zwi¬ 
schen den beiden von K 3 abgehenden Clustern identisch ( C\ = {RRS} und 
C 2 — {RCÜM}) und wurde mit dem UPGMA-Algorithmus errechnet (vgl. S. 48). 
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Abbildung 7.1: Phylogenetische Interpretation eines Cluster-Dendrogramms 


Vorformen von RRS und RCÜM haben sich also bei K 3 aus einem in den 
meisten Fällen fiktiven Vorgängertext T* ausdifferenziert, dessen Vorform wie¬ 
derum beim Knoten K 2 verfasst wurde. Dass sich RRS und RCÜM bei A 3 aus 
dem Vorgänger T* ausdifferenziert haben, heißt im phylogenetischen Modell 
noch nicht, dass sie seit diesem Zeitpunkt in der uns heute vorliegenden Form 
existieren. Ein mit dem UPGMA-Algorithmus konstruiertes phylogenetisches Mo¬ 
dell geht von der Voraussetzung aus, dass erfolgreiche Mutationen mit einer 
gleichbleibenden Rate auftreten. Überträgt man dieses Modell strikt auf die al- 
chemistischen Texte, haben sich bei A 3 die Vorgänger RRS* und RCÜM* aus 
T* ausdifferenziert und sich dann per „Mutation“ zu den heute vorliegenden 
Texten RRS und RCÜM weiterentwickelt. Alle uns heute vorliegenden Rezepte 
bzw. Texte konservieren im phylogenetischen Modell keinen vergangenen Stand 
der Alchemie, sondern sind Ergebnisse einer fortlaufenden Veränderung. Ihre 
absolute Datierung ist die Jetztzeit, der Moment, in dem sie mit dem UPGMA- 
Algorithmus gruppiert werden: 


ts 


Jetztzeit 


„ Ausdifferenzierung“ 

/ 

A 

RRS* 

1 

„Mutation“ | 

Y 

RRS 


^ „Ausdifferenzierung“ 

A 

RCÜM* 

1 

| „Mutation“ 

Y 

RCÜM 


Es dürfte klar sein, dass sich das phylogenetische Modell nur in einer stark ab¬ 
geschwächten Form auf textgeschichtliche Probleme anwenden lässt. Die größte 
Einschränkung ist, dass - zumindest mir - datierbare Vorgängertexte nicht vor¬ 
liegen. In einigen Fällen könnte eine gründliche Edition alchemistischer Werke 
wahrscheinlich solche Vorgänger der aktuellen Textversionen ans Licht bringen, 
mit denen die fortschreitende „Mutation“ einzelner Vorschriften zeitlich belegt 
werden könnte. Genauso häufig dürfte dieser Ansatz wahrscheinlich auch fehl- 
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heute 


I 


mIt^ 


jÄi = 1180 


riI 


K 2 = 1410 

K 3 = 1530 


| 

RPSudh^ 

T. T I I 

RHT i RPSudiP .!. .!. 

I I 3 I I 

RHT RPSudh RRS RCÜM 


RHT 

RPSudh- 


RRS, RCÜM 


Ki = 1180 

K 2 = 1410 
K 3 = 1530 


Abbildung 7.2: Ursprüngliches (links) und vereinfachtes (rechts) Dendrogramm 
für alchemistische Texte 


schlagen, entweder, weil die Manuskripte nicht mehr existieren oder weil es diese 
Vorgänger einfach nie gab. Das phylogenetische Modell muss also an die Daten¬ 
lage angepasst werden. 

Der Zeitwert ti , mit dem jeder Knoten Ki beschriftet ist, gibt an, wann 
sich die zwei Gruppen von Taxa, die von diesem Knoten abgehen, aus einem 
gemeinsamen Vorgänger ausdifferenziert haben, t* stellt eine untere zeitliche 
Schranke für alle Taxa dar, die dem Knoten Ki untergeordnet sind. Hier setzt 
die Vereinfachung des Modells an. ti wird anders als im biologischen Modell 
nicht nur als Untergrenze, sondern als Datierung aller Vorschriften = Texte an¬ 
gesetzt, die als Blätter direkt von Ki abgehen. Diese Vereinfachung unterschlägt 
die Existenz von Zwischenstufen, die nach der Theorie der zeitlich konstanten 
Mutationsraten zwischen dem Knoten Ki und denjenigen Texten hegen, die Ki 
untergeordnet sind. Der Unterschied zwischen dem phylogenetischen Modell und 
der vereinfachten philologischen Version ist in Abbildung 7.2 mit fiktiven Datie¬ 
rungen skizziert. Auf der linken Seite ist das ursprüngliche Modell angedeutet, 
in dem z.B. vom Knoten K\ um 1180 die Tradition des RHT abzweigt. Aller¬ 
dings hegt zu diesem Zeitpunkt noch nicht der heute bekannte Text des RHT, 
sondern seine Vorstufe RHTJ vor, die erst im Lauf der Jahrhunderte über die i 
Zwischenstufen RHT?;, ..., RHT* zum heute bekannten RHT „mutiert“. Die 
Datierung 1180 stellt in diesem Modell eine Untergrenze für die RHT-Tradition 
dar. Im adaptierten Modell (s. Abb. 7.2, rechts) wurden aus den datierten Asten, 
die zu den Texten führen, die Vorstufen der heute vorliegenden Texte entfernt. 
Dadurch steigt jeder Text direkt zu seinem Elterknoten auf und übernimmt des¬ 
sen Datierung. Ich weise noch einmal darauf hin, dass diese Strategie eine im 
phylogenetischen Modell nicht enthaltene und mit seinen theoretischen Voraus¬ 
setzungen nicht vereinbare Vereinfachung darstellt, da die zeitliche Untergrenze 
zu einer exakten Datierung uminterpretiert wird. 

Die philologische Adaption der Phylogenese stutzt die Aste der Dendrogram- 
me auf die heute vorliegenden Texte zurück, was eine mögliche Fehlerquelle bei 
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der Datierung ist. Die aus dem vereinfachten Dendrogramm ablesbaren Datie¬ 
rungen sind deshalb mit einem hohen Grad an Unsicherheit behaftet. Anstatt 
diese Angaben direkt zur Datierung der Texte zu benutzen, werden deshalb aus 
den Dendrogrammen zwei Arten von Regeln erzeugt: 

Größer-Kleiner-Regel (GKR) Eine GKR beschreibt die Häufigkeitsvertei¬ 
lung der beiden möglichen zeitlichen Anordnungen von zwei Texten. In 
einem Dendrogramm geht der RCÜM von einem auf 1300 datierten Kno¬ 
ten, der RRS dagegen von einem auf 1500 datierten Knoten ab. Daraus 
wird die GKR 


(RCÜM < RRS):(RRS<RCÜM) = 1:0 
__ ' 

häufigere Relation 


abgeleitet. Eine GKR ist also ein geordnetes Paar von Zeitrelationen, da 
die häufigere der beiden Relationen links steht, und wird im folgenden 
mit RCÜM<RRS = 1:0 abgekürzt. Gehen zwei Texte direkt als Blätter 
von einem Knoten ab, kann aus diesen Daten keine GKR erzeugt werden. 
Die zeitliche Kardinalskala des Dendrogramms wird bei dieser Regel in 
eine schwächere Ordinalskala transformiert, was sich durch die numerische 
Unsicherheit der Daten rechtfertigen lässt. 

Distanz-Regel (DR) Die Knoten eines Dendrogramms, das mit dem UPGMA- 
Algorithmus aus einer (annähernd) ultrametrischen Distanzmatrix kon¬ 
struiert wurde, sind mit Werten zwischen 1 (sehr weit entfernt) und 0 
(identisch) gewichtet (vgl. S. 48). Aus diesen Werten können zeitliche Ent¬ 
fernungen zwischen Knoten abgeleitet werden. Besitzen zwei Knoten die 
Zeitwerte t± und , ist die zeitliche Distanz zwischen den Texten, die die¬ 
sen Knoten direkt untergeordnet sind, A t = \t\ — ^ 2 1 - Abbildung 7.3 zeigt 
das Histogramm (links) und den Boxplot (rechts; s. z.B. [10, 40]) für alle 
A t im untersuchten Corpus. Anhand des Boxplots werden die Werte von 
A t einem der drei folgenden Intervalle zugeordnet: 


Intervallgrenzen 
0 < A t< 0.1 
0.1 < A t< 0.3 
0.3 < At < 1 


zeitliche Interpretation 
zeitlich nahe Texte 
zeitlich „mittelweit“ entfernte Texte 
zeitlich weit entfernte Texte 


Zählt man die relativen zeitlichen Distanzen für ein Textpaar über das 
gesamte Corpus aus, ergeben sich Distanz-Regeln der Form 

RRS <> RCÜM = 40 : 13 : 2. 

Von insgesamt 40+13+2 = 55 Malen, in denen dieses Textpaar gemeinsam 
in einem Dendrogramm auftritt, hat es also 40 Mal eine geringe, 13 Mal 
eine mittlere und nur zweimal eine weite Distanz. 





100 


KAPITEL 7. TRENDHYPOTHESEN 




0.0 0.4 0.8 

Entfernungen 


Abbildung 7.3: Histogramm (links) und Boxplot (rechts) der Knotendistanzen 
für alle untersuchten Prozeduren - Die Intervallgrenzen sind im Histogramm als 
senkrechte Pfeile und im Boxplot als horizontale gestrichelte Linien eingezeich¬ 
net. 


7.2 Statistische Absicherung der Regeln 

Bevor die so gewonnenen Regeln zur zeitlichen Anordnung der Texte benutzt 
werden, wird ihre statistische Signifikanz mit Binomial- und Multinomialtests 
überprüft. Diese Verfahren sorgen dafür, dass nur aussagekräftige, nicht-zufälli¬ 
ge Regeln bei der zeitlichen Anordnung der Texte zum Einsatz kommen. Ihr 
Einsatz ist nötig, weil die Regeln teilweise mit erheblicher Unsicherheit belas¬ 
tet sind. Man kann die statistische Überprüfung daher als ein Korrektiv für 
Konstruktionsfehler in den Dendrogrammen interpretieren. 

Statistische Signifikanztests, zu denen Binomial- und Multinomialtests ge¬ 
hören, beurteilen, inwieweit ein theoretisches Modell von einer Beobachtung 
bestätigt wird. 1 Bei den Größer-Kleiner-Regeln geht ein pessimistisches Modell 
davon aus, dass die Texte zufällig in den Dendrogrammen auftreten und damit 
keiner zeitlichen Ordnung folgen. Dieses Modell lässt sich mit einem Binomial- 
test überprüfen, der als Parameter die Gesamtzahl der Beobachtungen n, die 
Zahl k der Beobachtungen von A und die Wahrscheinlichkeit für das Auftreten 
von A (tta) besitzt. Das Ereignis A ist in unserem Fall das Auftreten der seltene¬ 
ren Relation in einer GKR. Man formuliert jetzt die sogenannte Nullhypothese 
{H 0 ), die im vorliegenden Fall besagt, dass die Texte im Baum zufällig verteilt 
sind und die Wahrscheinlichkeit für Regel A tta = 0.5 = 7beträgt. Neben der 


1 Im Rahmen dieses Textes kann ich keine Einführung in die Testtheorie geben. Ein Über¬ 
blick findet sich in [10], v.a. 107ff. Ich orientiere mich an dieser Darstellung. Weniger episch 
und für philologische Fragestellungen eher geeignet (nicht-parametrische Methoden) ist [9]. 
Vor allem mit philologischen Problemen beschäftigt sich [24]. - Speziell zum Binomialtest s. 
z.B. [22, 390ff.] und [9, 63ff.]. 
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Nullhypothese wird die Alternativhypothese H\ aufgestellt. H\ besagt, dass die 
Annahmen der Nullhypothese nicht zutreffen, dass die Texte also nicht zufällig 
im Baum verteilt sind. H\ besagt allerdings nicht, dass die Anordnung der Tex¬ 
te von ihrer Entstehungszeit verursacht wird. Die Alternativhypothese H\ wird 
als gerichtete Hypothese formuliert: Die beiden Relationen einer bestimmten 
GKR treten nicht gleichwahrscheinlich auf, sondern Ä (die häufigere Relation 
einer GKR) ist signifikant häufiger als A ( 7 > 7 r^). Wird der Binomialtest auf 
die beobachteten Daten angewendet, liefert er die sogenannte Überschreitungs¬ 
wahrscheinlichkeit p. p gibt an, mit welcher Gesamtwahrscheinlichkeit die be¬ 
obachtete Verteilung oder unwahrscheinlichere Verteilungen auftreten können. 
Liegt p unter dem vorher festgelegten Signifikanzniveau o, kann Hq abgelehnt 
werden. Die Verteilung der beobachteten Daten weicht statistisch signifikant von 
der Gleichverteilung und damit einem zufälligen Muster ab. 

Die Distanz-Regeln (DR; s. S. 99) werden statistisch mit dem Multinomial- 
test abgesichert (vgl. [9, 71ff.]). Dieser Test untersucht die statistische Signifi¬ 
kanz der Verteilung von n Beobachtungen auf m Klassen, die den Umfang k\, 
& 2 , • ••, km haben und für die = n gilt. Jeder der Klassen wird die 

individuelle Wahrscheinlichkeit 7 Ti zugeordnet (2üi = 1)* Bei den DR liegen 
m — 3 Klassen vor, die die absoluten Häufigkeiten einer geringen, mittleren und 
großen zeitlichen Distanz eines Textpaars im Dendrogramm aufzeichnen. Die 
Untersuchung von DR geht von der Nullhypothese aus, dass alle Klassen mit 
derselben Wahrscheinlichkeit auftreten (71* = ^ = |). Die Alternativhypothese 
Hi besagt dagegen, dass die beobachtete Verteilung von der mit 7Tj = ^ zu er¬ 
wartenden Gleichverteilung auffällig abweicht. Die Auswertung des Tests erfolgt 
nach denselben Prinzipien wie beim Binomialtest. 

Tabelle 7.1 fasst die statistisch signifikanten GKR und DR zusammen. Vier 
der GKR werden nicht für die Datierung benutzt, da sie aufgrund von Zitatre¬ 
geln aus Abschnitt 6.3 (S. 90ff.) entweder unnötig (RHT<RCint, RArn<RRS) 
oder unmöglich (RPSudh<RCüM, RRS<RCÜM) sind. Die letzten beiden 
Fälle werfen grundsätzliche Zweifel an der Gültigkeit der GKR auf, da zwei 
aus den Dendrogrammen abgeleitete Regeln eindeutigen Zitierverhältnissen wi¬ 
dersprechen. Allerdings gehören alle drei betroffenen Texte zu der inhaltlich eng 
verknüpften Gruppe {RRS, RCüM, RPSudh}. Rezepte in dieser Gruppe sind 
sehr häufig entweder identisch oder so nahe verwandt, dass ihre Anordnung im 
Dendrogramm ihr Verhältnis nicht immer korrekt wiedergibt. Da keine Texte 
aus inhaltlich stark differierenden Gruppen in solche Widersprüche verwickelt 
sind, wird aus meiner Sicht die Gültigkeit der GKR nicht in Zweifel gezogen. 
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GKR 

V 

DR 

Distanz 

V 

RCint<RManj 

0.0038 

RCintoRSK 

0.43 

0.0205 

*RHT<RCint 

0.0625 

RManjoRRS 

0.14 

0.0410 

RCint<BhPr 

0.0195 

RManjoRRA 

0.21 

0.0597 

RCint<SdhSamh 

0.0313 

RManjoRArn 

0.35 

0.0056 

RSK<RCint 

0.0625 

RManjoRSS 

0.13 

0.0132 

RPSudh<RManj 

0.0059 

RManjoRSK 

0.44 

0.0781 

RRS<RManj 

0.0717 

RHToRPSudh 

0.32 

0.0781 

RRA<RManj 

0.0216 

RPSudhoRRA 

0.38 

0.0087 

RArn<RManj 

0.0021 

RPSudhoRArn 

0.41 

0.0260 

RCüM<RMan: 

0.0461 

RPSudhoSdhSamh 

0.38 

0.0888 

RSK<RManj 

0.0625 

RRSoRCÜM 

0.07 

< 0.0000 

RHT<RRS 

0.0156 

RRAoRArn 

0.16 

0.0042 

RHT<RSS 

0.0313 

RRAoRCÜM 

0.35 

0.0355 

fRPSUDH<RRS 

0.0145 

RArnoRCOM 

0.40 

0.0053 

RArn<RPSudh 

0.0730 

BhProSdhSamh 

0.08 

< 0.0000 

RPSudh<RSS 

0.0461 




fRPSuDH<RCÜM 

0.0000 




RRA<RRS 

0.0004 




*RArn<RRS 

0.0002 




RRS<RCOM 

0.0717 




RRA<RSS 

0.0121 




RRA<RCOM 

0.0001 




RRA<BhPr 

0.0065 




RRÄ<SdhSamh 

0.0193 




RArn<RSS 

0.0001 




RArn<RCüM 

0.0003 




RArn<BhPr 

0.0156 




RArncSdhSamh 

0.0313 





Tabelle 7.1: Automatisch aus Teildendrogrammen extrahierte zeitliche Regeln - 
Links: Größer-Kleiner-Regeln (GKR), rechts: Distanz-Regeln (DR); Signifikanz¬ 
niveau a — 10% - ★: unnötige Regel, f: ungültige Regel (s. S. 101) 







Kapitel 8 

Automatische Datierung 
alchemistischer Texte 


In den vorausgehenden Kapiteln wurden vier Typen von Informationen unter¬ 
sucht, die zur Datierung alchemistischer Texte herangezogen werden können. 
Fassen wir diese Typen noch einmal zusammen, bevor ein Algorithmus zur Be¬ 
rechnung einer optimalen Datierung des alchemistischen Corpus entworfen wird: 

1. Die Alchemie entwickelte sich in einem Zeitrahmen, der sich nach Mei¬ 
nung vieler Forscher ungefähr von 900 n. Chr. bis 1600 n. Chr. erstreckt 
(vgl. Abschnitt 2.2). Das obere Datum dieses Zeitrahmens kann über da¬ 
tierte Manuskripte relativ sicher festgelegt werden. Sein Anfang lässt sich 
mit religions- und kulturhistorischen Thesen bestimmen, ist aber mit sehr 
viel mehr Unsicherheit behaftet als sein Ende. Da das Ziel dieser Arbeit 
hauptsächlich eine relative Chronologie der indischen Alchemie ist, wer¬ 
fen eventuelle Fehler im Zeitrahmen nicht das gesamte Modell über den 
Haufen. 

2. Für einige Texte lässt sich eine zeitliche Obergrenze aus datierten Manu¬ 
skripten ableiten. Diese Daten sind in der zweiten Spalte von Tabelle 2.4 
(S. 20) zusammengefasst. 

3. Die Suche nach Text- und Autorennamen (Abschnitt 6.3) hat eine Reihe 
sehr wahrscheinlicher Größer-Kleiner-Regeln (GKR) ergeben. 

4. Die meisten Anhaltspunkte für eine Datierung des alchemistischen Corpus 
hat schließlich die halbautomatische Extraktion von Zeitregeln der Typen 
GKR und DR aus den Cluster-Dendrogrammen geliefert, die in Kapitel 
7.1 beschrieben wurde (vgl. Tab. 7.1). Obwohl diese Regeln aus teilwei¬ 
se unzuverlässigem Datenmaterial extrahiert wurden, gewährleistet ihre 
statistische Absicherung (Kap. 7.2), dass sie nicht-zufällige und hoffent¬ 
lich auch zeitlich motivierte Abfolgen von Texten darstellen. GKR und 
DR besitzen mit der Überschreitungswahrscheinlichkeit p einen Wert, der 
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ihre statistische Signifikanz und damit ihre Bedeutung für die Datierung 
angibt. 

Die vier Informationstypen zur Datierung lassen sich in zwei mathematische 
Klassen einordnen. Zur Klasse der zeitlichen Distanzen gehören die DR. Wenn 
di und dj die (irgendwie gewonnenen) Datierungen der Texte Ti und Tj sind, 
verzeichnet eine DR, die sich auf diese beiden Texte bezieht, wie groß der Abso¬ 
lutwert der Differenz der beiden Datierungen | di — dj | sein sollte. Alle anderen 
Informationstypen fallen in die Klasse der zeitlichen Grenzen. Der globale Zeit¬ 
rahmen R = {Du, Do} — {900,1600} schränkt den Bewegungsspielraum für 
alle Datierungen di auf das Intervall [Du, Do] ein: Du < di < Do- Die Da¬ 
tierung von Manuskripten Dm schränkt die Datierung des zugehörigen Textes 
ein. Wenn für Text Ti ein datiertes Manuskript aus dem Jahr Dmi vor liegt, gilt 
di < Dm i- Schließlich legt eine GKR die Datierung eines Textes Ti unter Bezug 
auf diejenige eines anderen Textes Tj fest: Wenn Ti < Tj , gilt di < dj. Dieser 
Regeltyp ist transitiv: Wenn Ti < Tj und Tj < T^, gilt auch di < df~. 

Um die Distanzen und Grenzen in Textdatierungen umzuwandeln, müssen 
die Texte so auf einer eindimensionalen Zeitachse angeordnet werden, dass 
möglichst viele der Distanz- und Grenzbedingungen erfüllt sind. Ein einzelner 
dieser - mehr oder weniger guten - Datierungsvorschläge für das gesamte Cor¬ 
pus wird im folgenden als Datierungskonstellation bezeichnet. Für n Texte be¬ 
steht solch eine Datierungskonstellation also aus n Datierungen di, efe,..., d n . 
Die Ableitung einer optimalen Datierungskonstellation aus den vier Informati¬ 
onstypen ist damit grundsätzlich dieselbe Art von Minimierungsproblem, das 
bei der Abbildung von Synonymvektoren in eine zweidimensionale Ebene gelöst 
werden musste (vgl. Kap. 5.2). Wie bei der grafischen Umsetzung der Cluster¬ 
bildung wird auch hier ein Gleichungssystem aufgestellt, dessen Ergebnis mit 
mathematischen Verfahren minimiert wird. Die Berechnung einer einzelnen Da¬ 
tierungskonstellation zerfällt in zwei Hauptschritte: 

1. Zu Beginn wird jedem Text ein zufällig gewählter Zeitwert aus dem globa¬ 
len Zeitrahmen zugewiesen. Die zufällige Initialisierung bewirkt, dass zwei 
Datierungskonstellationen meist nicht übereinstimmen (s. Abschnitt 8.3). 

2. Der Funktionswert Ll einer zufällig initialisierten Datierungskonstellation 
wird in zwei Schritten durch iterative Verfahren minimiert: 

(a) Im ersten Schritt wird mit einem robusten iterativen Verfahren eine 
Näherungslösung des Minimierungsproblems gesucht. 

(b) Im zweiten Schritt wird diese vorläufige Lösung mit dem Gradien¬ 
tenabstiegsverfahren verbessert (vgl. S. 70ff.). 

Beide Minimierungsschritte bestehen ihrerseits aus der Wiederholung von zwei 
Schritten: Der Berechnung des Funktionswerts D anhand der aktuellen Datie¬ 
rungskonstellation (Kap. 8.1) und der Minimierung dieses Funktionswerts (Kap. 
8.2). Berechnung und Minimierung des Funktionswerts werden jeweils solange 
wiederholt, bis ein Abbruchkriterium erfüllt ist. Abbildung 8.1 bringt Licht ins 
Dickicht dieser Begriffe. 
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! 1. Unterschritt: | 
Näherungs¬ 
lösung 

1 2. Unterschritt: 
Ergebnis¬ 
optimierung 


1. Hauptschritt: 
Initialisierung 


2. Hauptschritt: 
Minimierung 


Abbildung 8.1: Flussdiagramm: Optimierung der Datierung des Corpus 

8.1 Berechnung des Funktionswerts 

Der Funktionswert fl, der die Güte der aktuellen Datierungskonstellation angibt, 
wird auf den Wert 0 gesetzt. Dann durchläuft der Algorithmus der Reihe nach 
alle Texte und überprüft, ob die diesen Texten zugeordneten Grenz- und Di¬ 
stanzbedingungen erfüllt sind. Ist eine Bedingung erfüllt, bleibt fl unverändert. 
Andernfalls wird ein Strafwert 7 zu 0 addiert, dessen Berechnung im folgenden 
beschrieben wird. 

Am einfachsten lassen sich die zeitlichen Distanzen behandeln. Wenn zwi¬ 
schen zwei Texten Ti und Tj mit den Datierungen di und dj eine zeitliche Di¬ 
stanz A ij 7 ^ 0 mit dem p-Wert pij (s. S. 103) liegen soll, berechnet man den 
Wert 5 = \ \di — dj \ — Aij \ . Der Verlauf dieser Betragsfunktion ist in Abbildung 

8.2 dargestellt. Überschreitet S einen Schwellenwert 9 = 100, wird 7 = Ö ■ p'2 
zu fl addiert. Der Einsatz von 9 wird durch die Unsicherheit motiviert, mit der 
Distanz-Regeln behaftet sind. Eine kleine Differenz 5 < 9 wird daher nicht als 
Fehler, sondern als tolerierbare Abweichung bewertet. Je niedriger der Wert von 
9 ist, desto strenger orientiert sich der Algorithmus natürlich an den von A ij 
vorgegebenen Distanzen. Die Multiplikation des Strafwerts mit dem quadrierten 
invertierten p-Wert pj • lässt die Ergebnisse der statistischen Absicherung in den 
Funktionswert fl einfließen. Ein niedriger p-Wert weist auf eine hohe statistische 
Signifikanz der Regel hin. Je höher die statistische Signifikanz einer Regel ist, 
desto stärker sollte ihre Verletzung den Wert fl beeinflussen. Der p-Wert wird 
daher invertiert (d.h. p' = 1 — p) und zusätzlich quadriert. Der Verlauf von p /2 
ist in Abbildung 8.3 dar gestellt. 

Die zeitlichen Grenzen sind Zusatzbedingungen, die die zugehörigen Datie- 
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Abbildung 8.2: Verlauf der Distanzfunktion S für die zeitliche Distanz von Tex¬ 
ten (DR) - A i:j = 200, 6 = 100 



Abbildung 8.3: Verlauf des invertierten p -Werts 







8.2. MINIMIERUNG 


107 



800 1000 1200 1400 1600 1800 
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Abbildung 8.4: Wert der Straffunktion 7 für Überschreiten des globalen Zeit¬ 
rahmens 


rungen auf bestimmte Intervalle festlegen. Wie in [12, 562ff.] dargestellt, lassen 
sich diese Zusatzbedingungen z.B. über logarithmische Funktionen approximie¬ 
ren (logarithmic barrier). Im vorliegenden Fall wird als Approximation eine ein¬ 
fache quadratische Funktion verwendet. Falls die Datierung di eines Textes die 
untere Grenze Du des globalen Zeitrahmens unterschreitet, wird der Strafwert 
7 = (dj — Du) 2 zu fl addiert; falls di > Do , der Strafwert 7 = (di — Do) 2 (s. 
Abb. 8.4). Ähnliche Strafterme werden bei Verletzung anderer Grenzbedingun¬ 
gen addiert. Existiert eine zeitliche Obergrenze auf Grundlage eines datierten 
Manuskripts, wird fl um 7 — (di — (Dm i~0)) 2 erhöht, falls di > Dmi~0. Wenn 
eine GKR der Form Ti < Tj existiert und di > dj ist, wird 7 = (di — dj) 2 ■ p'?j 
zu fl addiert. Wie oben angemerkt, sind GKR transitiv. Ist die Regel Ti < Tj 
selbst nicht verletzt, wird die Gültigkeit aller Regeln Ti < Tk überprüft, wenn 
Tfc den zweiten Text in einer GKR von Tj (Tj < Tk) darstellt. Ist eine dieser 
Regeln verletzt, wird S7 um 7 = (dj-<4) 2 -(l-py)- {1-pjk) = (di~ d k ) 2 -p'^-p'^ 
erhöht. 


8.2 Minimierung des Funktionswerts 

Um den Funktionswert fl einer Datierungskonstellation zu minimieren, werden 
zwei Verfahren verwendet: Das Gradientenabstiegverfahren (vgl. Kap. 5.2.2) und 
die Methode konjugierter Richtungen nach Powell (vgl. [58] und [13, 358]). Die 
Methoden werden kombiniert, da die initiale Datierungskonstellation zufällig 
fest gelegt wird, das Gradientenabstiegsverfahren aber ohne eine gute Schätzung 
für die Startkonstellation häufig nicht konvergiert. Über dieses Problem hilft das 
relativ robuste Verfahren der konjugierten Richtungen hinweg, das allerdings 
vergleichsweise langsam ist ([13, 374]). 

Eine Datierungskonstellation wird zuerst näherungsweise mit Powells Ver¬ 
fahren optimiert. Ausgehend von dieser Datierungskonstellation wird der Funk- 
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tionswert D dann mit dem Gradientenabstiegsverfahren minimiert. Dazu muss 
der Gradient der in Abschnitt 8.1 beschriebenen Funktion und damit ihre er¬ 
ste Ableitung berechnet werden. In der zweiten Spalte von Tabelle 8.1 sind die 
ersten Ableitungen der jeweiligen Strafterme verzeichnet. Da D eine Summe die¬ 
ser Strafterme ist, wird die Ableitung dieser Funktion summandenweise aus den 
ersten Ableitungen der Strafterme zusammengesetzt. Das einzige Problem tritt 
bei Distanz-Regeln zwischen zwei Texten auf. Eine einfache Betragsfunktion 
y — |x| ist bei x = 0 nicht differenzierbar. Bei der erweiterten Betragsfunktion, 
mit der die Distanz zwischen Texten bewertet wird, treten drei solcher nicht- 
differenzierbaren Stellen bei di = dj — Aij , di = dj und di = dj + Aij auf (s. Abb. 
8.2). Die Stellen di — djEAij können bei 6 ^ 0 ignoriert werden, da in einem In¬ 
tervall der Breite 6 um dj ± A ij der Strafwert 7 und damit auch seine Ableitung 
gleich 0 sind (vgl. S. 105 und Tab. 8.1). Die einzige problematische Stelle ist 
also di — dj. Die Funktion könnte hier in einem kleinen Intervall z.B. durch eine 
quadratische oder kubische Funktion approximiert werden. Auf Kosten numeri¬ 
scher Genauigkeit wurde eine Notlösung gewählt. Der Punkt di — dj wird dabei 
dem folgenden Funktionsabschnitt dj < dk < dj + A ^ — 6 zugeschlagen, der so 
zu dj < dk < dj + A ^ — 6 wird. Die Steigungen auf den einzelnen Abschnitten 
der Funktion sind in Abb. 8.2 verzeichnet. Bei n Texten wird mit diesen Ablei¬ 
tungen ein n-e lementiger Gradient berechnet, mit dem die Datierungsfunktion 
nach dem in Kapitel 5.2.2 beschriebenen Verfahren minimiert wird. 


8.3 Interpretation der Datierungen 

Zu Beginn der Minimierung des Funktionswerts D werden die Datierungen aller 
Texte auf Zufallswerte gesetzt (s. S. 104 und Abb. 8.1). Diese zufällige Initiali¬ 
sierung führt dazu, dass sich die Ergebnisse zweier Durchläufe der Minimierung 
teilweise erheblich unterscheiden. Um trotzdem eine verlässliche Datierung der 
Texte zu gewinnen, bietet es sich an, den Datierungsalgorithmus N Mal auf 
die Daten anzuwenden und aus den N Datierungen jedes Textes eine mittlere 
Datierung für diesen Text abzuleiten. Als Wert für die mittlere Datierung eines 
Textes wird das arithmetische Mittel di aller N ihm zugeordneten Datierungen 
gewählt: di = Ylj=i dij- Zusätzlich zum Mittelwert wird die Standardab¬ 
weichung s berechnet, mit der die Streuung der Datierungen eines Textes Ti 
beurteilt werden kann. Ist die Standardabweichung klein, wurde der Text in 
den meisten Fällen ähnlich datiert. Umgekehrt lässt sich ein Text, dessen Da¬ 
tierungen eine große Standardabweichung zeigen, mit dem Minimierungsmodell 
offenbar nur schwer datieren. Tabelle 8.2 zeigt das Ergebnis dieses Verfahrens 
für N = 100 Wiederholungen. 

Schon mehrfach wurde darauf hingewiesen, dass sowohl DR als auch GKR 
mit Ungenauigkeiten behaftet sein können. Auch der globale Zeitrahmen von 
900-1600 ist zwar mit guten Gründen zu vertreten, aber bei weitem nicht über 
jeden Zweifel erhaben. Exakte Datierungen oder Datierungsintervalle wie dieje¬ 
nigen in Tabelle 8.2 kommen zwar dem Wunsch nach einer greifbaren Jahreszahl 
entgegen. Sie sind aber wegen der Ungenauigkeiten in den Quelldaten immer mit 
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DR 

<5 = 1 

7=- 

di dj | A ij | 

0 falls S < 6 

ö • p'ij sonst 

7 < =. 

0 falls 5 < 6 

-1 ■ v 2 j f. dj <di< dj + Aij - e 
oder di < dj — Aij — 6 
-fl ■ p[ 2 sonst 

Globaler Zeitrahmen 

7=. 

0 f. Du < di < Do 

(di - Du) 2 falls di < Du 
. (di - Do) 2 falls di > Dq 

7 ' = ' 

0 falls Du < di < Do 

2 • (di — Du) falls di < Du 

2 • (di — Do) falls di > Do 

Datierte Manuskripte 

6 m i 

H 

= Dm i — 0 

0 falls di < 5m i 

(di —5Mi) 2 sonst 

7=- 

0 falls di < 5 m i 

2- (di — 6 m i) sonst 

GKR 

7 = . 

0 falls di < dj 

(di — dj) 2 • p'ij sonst 

7' = - 

0 falls di < dj 

2 • (di — dj) • p'ij sonst 

GKR (transitiv) 

7 = . 

0 f. di < dk 

(di - d k ) 2 p'ij -pjk sonst 

7' = - 

0 f. di < dk 

2 ■ (di-d k )- p^ ■ p' jk sonst 


Tabelle 8.1: Wert und erste Ableitung der Funktion zur Berechnung einer opti¬ 
malen Datierungskonstellation - f. = falls 


Zeit (arithmetisches Mittel 
± Standardabweichung) 


Text 


BhPr 

RAdhy 

RArn 

RCint 

RCÖM 

RHT 

RManj 

RPSudh 

RRS 

RRA 

RSK 

RSS 

SdhSamh 


1435 ± 31 
1104 ±88 
1038 ± 76 
1307 ± 68 
1252 ± 87 
988 ± 51 
1361 ± 63 
1271± 82 
1315 ± 89 
1052 ± 91 
990 ± 63 
1377 ± 71 
1474 ± 85 


Tabelle 8.2: Mittelwerte und Standardabweichungen der Textdatierungen für 
N = 100 Datierungskonstellationen 
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Vorsicht zu genießen. In einem zweiten Ansatz werden deshalb anstelle der ex¬ 
akten Datierungen die zeitlichen Rangfolgen der Texte betrachtet, die sich in 
jedem Minimierungsdurchlauf ergeben. Dabei wird das metrische Skalenniveau 
der Datierungen in ein ordinales umgewandelt. Der mit dieser Umwandlung ein¬ 
hergehende Informationsverlust ist angesichts der möglichen numerischen Un¬ 
genauigkeiten akzeptabel und sogar erwünscht. 

Tabelle 8.3 zeigt die Verteilung der dreizehn Texte auf die dreizehn mögli¬ 
chen Ränge für dieselben Minimierungsdurchläufe wie aus Tabelle 8.2. In jeder 
Tabellenzelle [i,j] ist verzeichnet, wie oft dem Text Ti der Rangplatz j zugewie¬ 
sen wurde. Der erste Wert (9) in der ersten Zeile (BhPr) bedeutet also, dass der 
BhPr in 9 von 100 Minimierungsdurchläufen auf den 11. Rang gesetzt wurde. 

Schon beim ersten Blick auf die Tabelle wird klar, dass die meisten Tex¬ 
te in einen relativ kleinen Bereich von Rängen eingeordnet werden. Besonders 
eng eingegrenzt und daher besonders „genau“ sind die Rangzuweisungen bei 
BhPr, RCÜM, RManj und SdhSamh. Hier unterscheidet sich die Qualität 
der Rangdaten klar von derjenigen der absoluten Datierungen (s. Tab. 8.2), die 
bei den meisten dieser Texte eine recht hohe Standardabweichung zeigen. Be¬ 
sonders weit gestreut sind die Ränge dagegen bei RAdhy, RCint und RRS. 
Trotzdem zeichnet sich auch für diese Texte klar ab, in welche Periode der Al¬ 
chemie sie eingeordnet werden müssen. Um die Dateninterpretation weiter zu 
vereinfachen, werden die tabellierten Werte in Balkendiagramme umgewandelt 
und zusätzlich nach ihrem aufsteigenden mittleren Rang geordnet (s. Abb. 8.5). 
In dieser Darstellungsform lassen sich drei Ranggruppen klar unterscheiden: 

frühe Texte: RHT, RSK, RArn und RRÄ haben einen durchschnittlichen 
Rang, der zwischen 1 und 4 liegt. Möglicherweise gehört auch der RAdhy 
zu dieser frühen Gruppe. 

mittlere Texte: Der durchschnittliche Rang der auch inhaltlich eng zusam¬ 
mengehörigen Gruppe RCÜM, RPSudh und RRS liegt zwischen 6 und 
9. Zu den mittleren Texten gehört außerdem der RCint. 

späte Texte: Die letzte Gruppe, deren Rangwerte zwischen 10 und 12 liegen, 
lässt sich möglicherweise weiter in die alchemistisch-äyurvedischen Texte 
RManj und RSS und die eher äyurvedischen Texte BhPr und SdhSamh 
unterteilen. 

Die absoluten Datierungen des Programms sind in Tabelle 8.4 denjenigen aus 
der Literatur gegenübergestellt (vgl. Kap. 2.1). Bei Texten, die mit einem Stern 
★ markiert sind, zeigen sich erhebliche Abweichungen zwischen automatischer 
und philologischer Datierung. Zwei Gruppen von Problemen lassen sich unter¬ 
scheiden. Die in der Literatur vorgeschlagenen Datierungen von RRÄ, RSK und 
RAdhy sind vollkommen unsicher. Beim RRÄ liegt das Fehlen einer Datierung 
am wahrscheinlich kompilatorischen Charakter des Textes und an der Tatsache, 
dass sich die meisten Forscher eher für die Identität der Autoren Nägärjuna 
und Nityanätha als für den Inhalt des Textes interessieren. Ich persönlich hal¬ 
te den Text aber eher für früh. Der RAdhy repräsentiert eine eigenständige 


SdhSamh BhPr RSS RManj I RCint RRS RPSudh RCüM RAdhy I RRÄ RArn RSK 
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Abbildung 8.5: Verteilung der Texte auf Rangplätze bei N = 100 Minimie¬ 
rungsdurchläufen, Balkendiagramm, geordnet nach durchschnittlichem Rang¬ 
platz (vgl. Datentabelle 8.3) 
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Text 

Rangplätze 

1 2 3 4 5 6 7 8 9 10 11 12 13 

durchschn. 

Rang 

BhPr 

9 54 37 

12.3 

RAdhy 

6 6 12 20 42 1 13 

4.4 

RArn 

4 9 53 27 7 

3.2 

RCint 

32 12 15 33 8 

8.4 

RCüM 

8 45 47 

6.4 

RHT 

36 46 5 9 4 

2.0 

RManj 

29 44 27 

10.0 

RPSudh 

19 38 31 11 1 

7.4 

RRS 

6 3 1 42 31 13 4 

8.4 

RRA 

9 13 15 35 28 

3.6 

RSK 

45 26 15 9 5 

2.0 

RSS 

15 14 10 44 17 

10.3 

SdhSamh 

1 7 29 63 

12.5 


Tabelle 8.3: Verteilung der Texte auf Rangplätze bei N = 100 Minimierungs- 
durchläufen, Datentabelle (vgl. Abb. 8.5) 


und wahrscheinlich archaische Lehrtradition, für die es nur wenige Vergleichs¬ 
punkte in den restlichen Texten des alchemistischen Corpus gibt. Die vom Pro¬ 
gramm vorgeschlagene frühe Datierung erscheint mir angemessen. Für die RSK 
gibt es schließlich kaum wissenschaftliche Datierungsvorschläge. Der Text wird 
vom Programm hartnäckig (und in verschiedensten Parameterkonstellationen) 
in einen sehr frühen Zeitraum datiert. Angesichts seines stark äyurvedisch ge¬ 
prägten Inhalts halte ich diese Datierung für falsch. Möglicherweise lässt sich 
diese Datierung durch den Umstand erklären, dass die RSK nur mit wenigen 
GKR und DR in der Regelbasis enthalten ist. Das zweite Problem tritt bei den 
beiden äyurvedischen Texten SdhSamh und BhPr auf. Diese Texte werden 
zwar auch vom Datierungsalgorithmus als eher spät markiert. Allerdings wird 
ihre wahrscheinliche Entstehungsreihenfolge regelmäßig vertauscht. Hier könnte 
ein ähnlicher Fall vor liegen wie bei den GKR in der Gruppe {RRS, RCÜM, 
RPSudh} (s. S. 101). Die Inhalte der beiden Texte sind sich möglicherweise 
zu ähnlich, als dass sie mithilfe der Dendrogramme auseinandergehalten werden 
können. 

Weniger Widersprüche zwischen den automatischen und philologischen Da¬ 
tierungen ergeben sich, wenn man anstelle der absoluten Datierungen die Schich¬ 
tung des Corpus in drei Zeitabschnitte betrachtet. Tabelle 8.5 teilt die Datierun¬ 
gen der alchemistischen Texte in die drei Gruppen „früh“, „mittel“ und „spät“ 
ein. Kontrovers sind weiterhin die Datierungen von RRÄ, RSK und SdhSamh. 
Trotzdem stimmen in dieser Form die mit dem Datierungsalgorithmus berech¬ 
neten und die philologisch gewonnenen Datierungen deutlich besser überein. 1 


1 Dieser Eindruck lässt sich auch statistisch untermauern. Bei den absoluten Datierun¬ 
gen stimmen die beiden Methoden in 8 von 13 Fällen überein. Bei einem Binomialtest mit 
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Text 

Programm 

Ray 

White 

Meulenbeld 

*BhPr 

15. Jh. 
(1435 ±31) 

16. Jh. 


1550-1590 

RPSudh 

13./14. Jh. 
(1271 ±82) 

13. Jh. 

13. Jh. 

16. Jh. 

RManj 

14./15. Jh. 
(1361 ± 63) 

1300-1550 


13.-16. Jh. 

RRS 

13./14. Jh. 
(1315 ±89) 

1300-1550 

13./14. Jh. 

15./16. Jh. 

★RRA 

10.-12. Jh. 
(1052 ±91) 

8 . Jh., 
1300-1550 

12./13. Jh. 

15. Jh. 

*RSK 

10./11. Jh. 
(990 ± 63) 


15. Jh. 

? 

RHT 

10./11. Jh. 

(988 ± 51) 

11. Jh. 

10./11. Jh. 

9.-13. Jh. 

*RAdhy 

11./12. Jh. 
(1104 ±88) 


13./14. Jh. 

< 1386 

RArn 

10./11. Jh. 
(1038 ± 76) 

12. Jh. 

10./11. Jh. (?) 

vor 14. Jh. 

RCint 

13./14. Jh. 
(1307 ±68) 

1300-1550 

15. Jh. 

15-/16. Jh. 

RCüM 

12.-14. Jh. 
(1252 ±87) 

12./13. Jh. 

12./13. Jh. 

14. Jh. 

RSS 

14./15. Jh. 
(1377 ± 71) 

1300-1550 


13.-16. Jh. 

*SdhSamh 

15./16. Jh. 
(1474 ± 85) 

< 1363 


14. Jh. 


Tabelle 8.4: Vergleich der mit dem Programm gewonnenen absoluten Datierun¬ 
gen mit Datierungsvorschlägen aus der Sekundärliteratur 
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Text 

Programm 

Ray 

White 

Meulenbeld 

BhPr 

s 

s 


s 

RPSudh 

m 

m 

m 

s 

RManj 

m/s 

m/s 


m/s 

RRS 

m 

m/s 

m 

s 

*RRA 

f 

? 

f/m 

s 

★RSK 

f 


s 

? 

RHT 

f 

f 

f 

f/m 

RAdhy 

f/m 


m 

m 

RArn 

f 

f 

f 

f/m 

RCint 

m 

m/s 

s 

s 

RCÜM 

m 

f/m 

f/m 

m 

RSS 

m/s 

m/s 


m/s 

*SdhSamh 

s 

m 


m 


Tabelle 8.5: Schichtung der alchemistischen Literatur - Symbole: (Spalte „Pro¬ 
gramm“:) Schichtung gemäß Abbildung 8.5, (restliche Spalten:) f(rüh) = vor 
13. Jh.; m(ittel) = 13./14. Jh.; s(pät) = nach 14. Jh. 


Abbildung 8.6 fasst die Ergebnisse der automatischen Datierung (s. Abb. 
8.5) und der Untersuchung von Lehrtraditionen (s. Abb. 5.6 und 6.4) im alche¬ 
mistischen Corpus zusammen. Innerhalb der datierten Texte zeichnen sich drei 
Gruppen ab: 

1. Die metallurgisch ausgerichteten frühen Werke RRÄ und RArn sind über 
die Ähnlichkeiten bei Synonymen und vargas stark miteinander verbun¬ 
den. 

2. RRS und RCÜM bilden die Hauptgruppe bei den mittleren Texten. Dass 
auch der RPSudh zu dieser Gruppe gehört, ist wahrscheinlich, lässt sich 
mit den hier benutzten Methoden aber nicht belegen. 

3. Die späte Gruppe besteht aus hauptsächlich äyurvedisch ausgerichteten 
Werken und stimmt weitgehend mit Rays „iatro-chemischen“ Texten über¬ 
ein. Diese Texte sind vor allem über Zitate verbunden. Interessant ist 
die Stellung der Kompilationen ÄK und RKDh, die klar zwischen den 
Zeitstufen der Alchemie vermitteln. 


k — 13 — 8 = 5, n — 13 und n — 0.5 ergibt sich eine Überschreitungswahrscheinlichkeit von 
0.291. Diese Verteilung kann also durchaus zufällig entstanden sein. Bei den gruppierten Daten 
liefert der Binomialtest mit k — 13 — 10 = 3, n — 13 und n — 0.5 dagegen die Überschrei¬ 
tungswahrscheinlichkeit 0.046. Selbst bei einem Signifikanzniveau von 5% unterscheiden sich 
diese Ergebnisse also deutlich von einer Gleichverteilung. 
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per Alignment datiert nicht datiert 



Abbildung 8.6: Übersicht über die Datierung und die Schulbildung des unter¬ 
suchten Corpus - Durchgezogene Linien: Verbindung aufgrund von Zitaten, ge¬ 
strichelte Linien: Verbindung aufgrund von Ähnlichkeiten bei Synonymlisten 
und vargas, gestrichelte Kästen: Gruppen zusammengehöriger Texte = „alche- 
mistische Schulen“ 
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